网络爬虫(也称为蜘蛛或机器人)是访问(或"爬行")网页的程序。

搜索引擎使用抓取工具来发现他们可以索引的内容—这意味着存储在他们庞大的数据库中。

这些程序通过遵循您网站上的链接来发现您的内容。

但由于爬网错误,该过程并不总是顺利进行。

在我们深入研究这些错误以及如何解决它们之前,让我们从基础开始。

什么是爬网错误?

爬网错误发生时搜索引擎爬虫无法以通常的方式浏览您的网页(如下所示)。

How Google discovers pages

当这种情况发生时,像Google这样的搜索引擎无法完全探索和理解您网站的内容或结构。

这是一个问题,因为爬网错误可能会阻止您的页面被发现。 这意味着它们不能被索引,出现在搜索结果中,或驱动有机(未付费)流量到您的网站。

Google将抓取错误分为两类:站点错误和URL错误。

让我们探索两者。

网站错误

网站错误是可能影响整个网站的爬网错误。

服务器,DNS和机器人。txt错误是最常见的。

服务器错误

服务器错误(返回5xxHTTP状态代码)当服务器阻止页面加载时发生。

以下是最常见的服务器错误:

  • 内部服务器错误(500):服务器无法完成请求。 但它也可以在更具体的错误不可用时触发。
  • 网关错误(502):一台服务器充当网关,并从另一台服务器接收无效响应
  • 服务不可用错误(503):服务器当前不可用,通常在服务器正在修复或正在更新时
  • 网关超时错误(504):一台服务器充当网关,不会及时收到另一台服务器的响应。 比如网站流量太大的时候。

当搜索引擎不断遇到5xx错误时,它们会减慢网站的抓取速度。

这意味着像谷歌这样的搜索引擎可能无法发现和索引您的所有内容。

DNS错误

域名系统(DNS)错误是当搜索引擎无法与您的域名连接时。

所有网站和设备都至少有一个互联网协议(IP)地址在网络上唯一标识它们。

DNS通过将域名与其IP地址匹配,使人们和计算机更容易相互交谈。

如果没有DNS,我们将手动输入网站的IP地址,而不是输入其URL。

所以,而不是进入"www.semrush.com"在您的URL栏中,您必须使用我们的IP地址:"34.120.45.191。”

DNS错误不如服务器错误常见。 但以下是您可能会遇到的:

  • DNS超时:您的DNS服务器没有及时回复搜索引擎的请求
  • DNS查询:搜索引擎无法访问您的网站,因为您的DNS服务器无法找到您的域名

机器人。txt错误

机器人。当搜索引擎无法检索您的机器人时,会出现txt错误。txt文件。

你的机器人。txt文件告诉搜索引擎他们可以抓取哪些页面,哪些页面不能。

这就是机器人。txt文件看起来像。

A robots.txt file

以下是此文件的三个主要部分以及每个部分的作用:

  • 用户代理:此行标识爬网程序。 "*"意味着规则适用于所有搜索引擎机器人。
  • 禁止/允许:这条线告诉搜索引擎机器人他们是否应该抓取您的网站或您网站的某些部分
  • 网站地图:此行指示您的站点地图位置

URL错误

与网站错误不同,URL错误只会影响网站上特定页面的可抓取性。

以下是不同类型的概述:

404错误

404错误意味着搜索引擎机器人找不到URL。 这是最常见的URL错误之一。

它发生在:

  • 您已经更改了页面的URL,而没有更新指向它的旧链接
  • 您已经从网站中删除了一个页面或文章,而没有添加重定向
  • 您已断开链接-例如,URL中存在错误

下面是一个基本的404页面在Nginx服务器上的样子。

A basic 404 page with

但大多数公司今天使用自定义404页。

这些自定义页面改善了用户体验。 并允许您与网站的设计和品牌保持一致。

Amazon's custom 404 page with an image of a dog named

软404错误

当服务器返回200代码时会发生软404错误,但Google认为它应该是404错误。

200代码意味着一切正常。 如果没有问题,它是预期的HTTP响应代码

那么,是什么原因导致软404错误?

  • JavaScript文件问题:JavaScript资源被阻塞或无法加载
  • 薄内容:页面的内容不足,无法为用户提供足够的价值。 像一个空的内部搜索结果页面。
  • 低质量或重复内容:该页面对用户没有用,或者是另一个页面的副本。 例如,不应该像包含"lorempsum"内容的占位符页面那样活。 或重复不使用的内容规范网址-通知搜索引擎哪个页面是主要的。
  • 其他原因:服务器上的文件丢失或与数据库的连接中断

以下是您在谷歌搜索控制台(GSC)中找到包含这些内容的页面时所看到的内容。

403禁止的错误

403forbidden错误表示服务器拒绝了爬网程序的请求。 这意味着服务器理解了请求,但爬网程序无法访问URL。

以下是Nginx服务器上403forbidden错误的样子。

Cg19KzYN2b9t6uwi9CJGQbtoELSxSaYrEPTTX77Bevmlfm96ZsxFQndb38_bGd8aVotgMlEPWABs-KDRUoQcT4O_q7Y5AWSB11T9WhDE4MM2YU7QnhXHRA4EAnGGyX2bvzM6eNQkbBQy15dHu8y7zbA

服务器权限问题是403错误背后的主要原因。

服务器权限定义用户和管理员对文件夹或文件的权限。

我们可以将权限分为三类:读取、写入和执行。

例如,如果您没有读取权限,则无法访问URL。

个故障。htaccess文件是403错误的另一个反复出现的原因。

安。htaccess文件是Apache服务器上使用的配置文件。 它有助于配置设置和实现重定向。

但在你的任何错误。htaccess文件可能会导致像403错误这样的问题。

重定向循环

当页面a重定向到页面B.和页面B到页面A时,会发生重定向循环。

结果呢?

无限循环的重定向,阻止访问者和抓取工具访问您的内容。 这会妨碍你的排名。

An image showing a redirect loop, from page A to page B

如何查找爬网错误

现场审核

塞姆鲁什氏现场审核允许您轻松发现影响网站可抓取性的问题。 并就如何解决这些问题提供建议。

打开该工具,输入您的域名,然后单击"开始审核.”

现场审核 tool search bar

然后,按照网站审核配置指南来调整您的设置。 并点击"启动站点审核。

现场审核 Settings window

您将被带到"概述"报告。

点击"查看详情"在"专题报告"下的"可抓取性"模块中。”

“Crawlability

您将全面了解您在爬网错误方面的表现。

然后,选择要解决的特定错误。 并在"抓取预算浪费"模块中点击旁边的相应栏。

我们选择了4xx作为我们的例子。

在下一个屏幕上,单击"为什么以及如何解决它.”

“为什么以及如何解决它

您将获得了解问题所需的信息。 以及如何解决它的建议。

谷歌搜索控制台

谷歌搜索控制台也是一款出色的工具,可为识别抓取错误提供宝贵的帮助。

前往您的GSC帐户,然后单击左侧边栏上的"设置"。

然后,点击"公开报告"旁边的"爬行统计"tab。

“公开报告” selected next to the “爬行统计” tab in GSC

向下滚动以查看Google是否注意到您网站上的抓取问题。

点击任何问题,如5xx服务器错误。

您将看到与您选择的错误匹配的Url的完整列表。

Examples of 5XX errors identified in GSC

现在,您可以逐一解决它们。

如何修复爬网错误

我们现在知道如何识别爬网错误。

下一步是更好地了解如何解决它们。

修复404错误

您可能会经常遇到404错误。 好消息是它们很容易修复。

您可以使用重定向来修复404错误。

使用方法301重定向永久重定向因为它们允许您保留原始页面的某些权限。 和使用302重定向用于临时重定向.

如何为重定向选择目标URL?

以下是一些最佳实践:

  • 如果内容仍然存在,则添加重定向到新URL
  • 如果内容不再存在,则将重定向添加到处理相同或高度相似主题的页面

部署重定向有三种主要方法。

第一种方法是使用插件。

以下是WordPress中一些最流行的重定向插件:

第二种方法是直接在服务器配置文件上添加重定向。

以下是301重定向在.htaccess文件在Apache服务器上。

重定向301https://www.yoursite.com/old-page/https://www.yoursite.com/new-page/

你可以把这条线分成四个部分:

  • 重定向:指定我们要重定向流量
  • 301:指示重定向代码,说明它是永久重定向
  • https://www.yoursite.com/old-page/:标识要重定向的URL
  • https://www.yoursite.com/new-page/:标识要重定向到的URL

如果您是初学者,我们不建议使用此选项。 因为如果您不确定自己在做什么,它会对您的网站产生负面影响。 因此,如果您选择走这条路线,请确保与开发人员合作。

最后,如果您使用Wix或shopify,则可以直接从后端添加重定向。

如果您使用的是Wix,请滚动到网站控制面板的底部。 然后点击"高级行政主任"下"营销和搜索引擎优化。”

“高级行政主任” selected under “Marketing & 高级行政主任” menu in Wix

点击"转到URL重定向管理器"位于"工具和设置"节。

“URL Redirect Manager” widget selected under the “工具和设置” section

然后,点击"+新重定向"右上角的按钮。

“+新重定向” button selected at the top right corner

将显示一个弹出窗口。 在这里,您可以选择重定向的类型,输入要重定向的旧URL以及要重定向到的新URL。

如果您使用shopify,请遵循以下步骤:

登入你的帐户,然后按"网上商店"下"销售渠道。”

然后,选择"导航.”

从这里,转到"查看URL重定向.”

点击"创建URL重定向"按钮。

输入您希望重定向访问者的旧URL和您希望将访问者重定向到的新URL。 "输入"/"以定位您商店的主页。)

最后,保存重定向。

损坏的链接(指向无法找到的页面的链接)也可能是404错误背后的原因。 因此,让我们看看如何使用网站审核工具快速识别损坏的链接并修复它们。

修复损坏的链接

断开的链接指向不存在的页面或资源。

假设你一直在写一篇新文章,并且想在"关于"页面上添加一个内部链接yoursite.com/about。"

链接上的任何拼写错误都将创建损坏的链接。

所以,如果你忘记了字母"b"并输入",你会得到一个损坏的链接错误yoursite.com/aout"而不是"yoursite.com/about。"

损坏的链接可以是内部的(指向您网站上的另一个页面)或外部的(指向另一个网站)。

查找断开的链接,配置站点审核如果你还没有。

然后,转到"问题"tab。

现在,在表格顶部的搜索栏中键入"内部链接"以查找与断开链接相关的问题。

Results for

并点击问题中的蓝色可点击文本以查看受影响Url的完整列表。

A list showing a section of 13 internal links that a broken

要解决这些问题,请更改链接,恢复丢失的页面,或添加301重定向到您网站上的另一个相关页面。

修理机器人。txt错误

塞姆鲁什氏现场审核工具还可以帮助您解决有关您的机器人的问题。txt文件。

首先,在工具中设置一个项目并运行审计。

完成后,导航到"问题"标签和搜索"机器人。txt的。”

Results for

您现在将看到与您的机器人相关的任何问题。您可以单击的txt文件。 例如,您可能会看到"机器人。txt文件有格式错误"链接,如果事实证明,你的文件有格式错误。

继续并单击蓝色,可点击的文本。

你会在文件中看到无效行的列表。

An invalid robots.txt file result highlighted from the list

您可以点击"为什么以及如何解决它"以获得有关如何修复错误的具体说明。

“为什么以及如何解决它” window for a robots.txt file error

监控可抓取性以确保成功

为了确保您的网站可以被抓取(以及索引和排名),您应该首先使其对搜索引擎友好。

如果不是,您的网页可能不会显示在搜索结果中。因此,您不会带来任何自然流量。

查找并解决以下问题可抓取性和可索引性使用网站审核工具很容易。

您甚至可以将其设置为定期自动抓取您的网站。 以确保您始终了解需要解决的任何爬网错误。

雷切尔 汉德利
Rachel是一名资深内容作家,在内容营销和SEO方面拥有12年以上的经验。她曾在代理机构工作,为各种品牌制定和执行内容战略,并在内部推动SaaS初创公司的有机增长。