15可抓取性问题&如何修复它们

你有没有想过为什么你的一些网页没有出现在谷歌的搜索结果中？

可抓取性问题可能是原因。

在本指南中，我们将解释可抓取性问题是什么，它们如何影响SEO以及如何解决它们。

让我们开始吧。

什么是可抓取性问题？

可抓取性问题阻止搜索引擎访问您网站的页面。

像谷歌这样的搜索引擎使用自动机器人来阅读和分析你的网页。此过程称为爬网。

infographic by Semrush illustrating a website and search engine bot

如果存在可抓取性问题，这些机器人可能会遇到阻碍其正确访问您的页面的能力的障碍。

常见的可抓取性问题包括:

Nofollow链接（告诉谷歌不要跟随链接或将排名强度传递到该页面）
重定向循环（当两个页面重定向到对方，创建一个无限循环）
不良网站结构
缓慢的网站速度

可抓取性问题如何影响SEO？

可抓取性问题会使您的部分或全部页面对搜索引擎不可见，从而显着损害您的SEO性能。

如果搜索引擎找不到您的页面，他们就无法对其进行索引—也就是说，他们无法将其保存到数据库中，以便稍后在相关搜索结果中显示。

这导致自然流量和转换的潜在损失。

您的页面必须是两个可抓取和可索引在搜索引擎中排名。

1. 在机器人中阻止的页面。txt脧脗脭脴

搜索引擎首先检查您的robots.txt脧脗脭脴文件来确定它们应该或不应该抓取哪些页面。

如果你的robots.txt文件看起来像这样，你的整个网站被阻止爬行:

用户代理: *
不允许: /

要解决此问题，请将"不允许"指令替换为"允许"，使搜索引擎能够访问您的整个网站:

用户代理: *
允许: /

在某些情况下，只会阻止特定页面或部分。例如:

用户代理: *
禁止：/产品/

在这里，"/products/"子文件夹中的所有页面都被阻止爬行。

要解决此问题，请从"Disallow"指令中删除指定的子文件夹或页面。

一个空的"不允许"指令告诉搜索引擎没有不允许的页面:

用户代理: *
不允许:

或者，使用"允许"指令而不是"不允许"来指示搜索引擎抓取您的整个网站，如前所示。

2. Nofollow链接

Nofollow标签告诉搜索引擎不要抓取网页上的链接。

标签看起来像这样:

如果您的页面上存在此标签，搜索引擎可能不会抓取您链接到的页面，从而在您的网站上创建可抓取性问题。

使用Semrush的检查nofollow链接现场审核工具:

1. 打开该工具，进入您的网站，然后单击"开始审核.”

2. 该网站审核设置窗口将出现。配置基本设置并单击"开始现场审核.”

3. 审核完成后，转到"问题"标签和搜索"nofollow。"

4. 如果检测到nofollow链接，请单击"#传出内部链接包含nofollow属性"查看带有nofollow标签的页面列表。

page with “902 outgoing 内部连结 contain nofollow attribute”

5. 查看页面并删除nofollow标签，如果它们不应该在那里。

3. 糟糕的网站架构

网站架构指的是你的网页是如何组织在你的网站。

一个好的网站架构确保每个页面只需点击几下就可以离开主页，并且没有孤立页面（没有内部连结指向它们）。

这有助于搜索引擎轻松访问所有页面。

但是，糟糕的站点体系结构可能会产生可爬网性问题。

考虑如下所示的示例站点结构。它有孤儿页面。

由于没有从主页到这些页面的链接路径，搜索引擎在抓取网站时可能找不到它们。

解决方案很简单：创建一个网站结构，通过内部链接在层次结构中逻辑地组织您的页面。

像这样:

在上面的例子中，主页链接到类别页面，然后链接到您网站上的各个页面。

这为抓取工具找到所有重要页面提供了清晰的路径。

4. 缺乏内部联系

没有内部链接的页面可能会产生可抓取性问题。

搜索引擎很难发现缺少内部链接的页面。

要避免这些问题，请确定您的孤立页面并向其添加内部链接。

你怎么能找到孤儿页面？

使用Semrush的现场审核工具。

配置工具运行审计。然后，转到"问题"标签和搜索"孤儿。"

该工具将显示您网站上的任何孤立页面。

要解决此问题，请将内部链接添加到站点上其他相关页面的孤立页面。

5. 糟糕的站点地图管理

A 网站地图列出您希望搜索引擎抓取，索引和排名的网站上的页面。

如果您的站点地图排除了您想要找到的任何页面，这些页面可能会被忽视，从而导致可抓取性问题。

使用像这样的工具XML站点地图生成器包括所有要爬网的页面。

要生成站点地图，请在工具中输入您的网站URL。它会自动为您创建站点地图。

将文件另存为"网站地图.xml"并将其上传到您网站的根目录。

例如，如果您的网站是www.example.com，你的网站地图网址应该是www.example.com/网站地图.xml...

最后，通过您的谷歌搜索控制台帐户。

访问您的帐户，点击"网站地图"在左侧菜单中，输入站点地图URL，然后单击"提交."

6. 'Noindex'标签

一个"noindex"元机器人标签指示搜索引擎不索引页面。

标签看起来像这样:

虽然noindex标记旨在控制索引，但如果长时间留在页面上，它可能会产生可抓取性问题。

谷歌对待长期的"noindex"标签正如Nofollow标签，由谷歌的约翰*穆勒证实。

随着时间的推移，Google将完全停止抓取这些页面上的链接。

如果您的页面没有被抓取，长期的noindex标签可能是罪魁祸首。

使用Semrush识别这些页面现场审核工具。设置项目在工具中运行爬网。完成后，转到"问题"选项卡并搜索"noindex。"

该工具将列出您网站上带有"noindex"标签的页面。

查看这些页面，并在适当的地方删除"noindex"标签。

7. 缓慢的网站速度

搜索引擎机器人有有限的时间和资源来抓取你的网站，被称为爬行预算.

缓慢的站点速度会导致页面加载缓慢，从而减少机器人可以在会话中抓取的页面数量。因此，可能会排除重要页面。

要解决此问题，请提高您网站的整体性能和速度。

从我们的指南开始页面速度优化.

8. 内部损坏的链接

内部损坏的链接是指向您网站上死页的超链接。

他们返回404错误页面。

断开的链接会显着影响网站的可抓取性，因为它们会阻止搜索引擎机器人访问链接的页面。

要在你的网站上找到损坏的链接，请使用现场审核工具。

导航到"问题"标签和搜索"破碎。"

点击"#内部链接断开，"你会看到一份报告，列出了所有损坏的链接。

要修复这些损坏的链接，请替换其他链接，恢复丢失的页面或添加301重定向到您网站上的另一个相关页面。

9. 服务器端错误

服务器端错误，例如500HTTP状态代码，中断爬网过程，因为服务器无法满足请求。

这使得机器人很难抓取您网站的内容。

要识别和修复服务器端错误，请使用Semrush的现场审核工具。导航到"问题"选项卡并搜索"5xx"。

如果存在错误，请单击"#页面返回5xx状态代码"以查看受影响页面的完整列表。

然后，将此列表发送给开发人员以正确配置服务器。

10. 重定向循环

当一个页面重定向到另一个页面时，就会发生重定向循环，然后重定向回原始页面，从而创建一个连续的循环。

重定向循环阻止搜索引擎机器人到达最终目的地，因为它们被困在两个或更多页面之间的无休止的重定向循环中，浪费了可能花费在重要页面上的宝贵

要识别和修复站点上的重定向循环，请使用现场审核工具。

导航到"问题"标签和搜索"重定向。"

该工具将显示任何重定向循环，并提供有关如何解决它们的建议，当你点击"为什么以及如何解决它."

results show redirect loops with advice on how to fix them

11. 访问限制

具有访问限制的页面，例如登录表单或付费墙后面的页面，可以防止搜索引擎机器人抓取它们。

因此，这些页面可能不会出现在搜索结果中，从而限制了它们对用户的可见性。

在某些情况下，限制对某些页面的访问是有意义的。

例如，基于会员资格的网站或订阅平台通常将页面限制为付费会员或注册用户。

这允许网站提供独家内容，特别优惠或个性化体验，创造价值感并激励用户订阅或成为会员。

但是，如果您的网站的重要部分受到限制，这将成为可抓取性错误。

评估每个页面对受限访问的需求，并仅在真正需要它们的页面上保留限制。

从那些没有删除限制。

12. URL参数

URL参数，也称为查询字符串，是url中跟随问号（？）并帮助跟踪和组织。

例如：example.com/shoes?color=blue...

URL参数如何影响您网站的可抓取性？

URL参数可以创建几乎无限数量的URL变体。

这通常发生在电子商务类别页面上;当您应用大小，颜色或品牌等过滤器时，URL会更改以反映这些选择。

如果您的网站有一个大型目录，您最终可能会有数千个甚至数百万个网址。

如果这些参数化的Url没有得到很好的管理，Google可能会浪费它们的抓取预算，这可能会导致您的一些重要页面无法被抓取。

您需要决定哪些URL参数对搜索有帮助，并且应该进行爬网。

您可以通过了解人们是否正在搜索应用参数时生成的特定内容来执行此操作。

例如，在网上购物时，人们经常按颜色搜索，例如"黑色鞋子。"

Keyword Overview tool's dashboard showing metrics for

这意味着"颜色"参数是有用的，一个URL像example.com/shoes?color=black 应该被抓取。

但是，有些参数对搜索没有帮助，不应该爬网。

例如，"评级"参数按客户评级筛选产品，例如example.com/shoes?rating=5...

很少有人通过客户评级搜索鞋子。

因此，您应该通过使用机器人来防止对搜索没有帮助的Url被抓取。txt文件或通过将nofollow标记添加到指向这些参数化Url的内部链接。

这将确保您的爬网预算有效地花费在正确的页面上。

13. Javascript资源在机器人中被阻塞。txt脧脗脭脴

许多现代网站使用JavaScript的，其包含在。js文件。

阻止访问这些。js文件通过robots.txt可以创建可抓取性问题，特别是如果您阻止基本的JavaScript的文件。

例如，如果您阻止加载页面主要内容的JavaScript的文件，爬网程序可能无法看到该内容。

检查你的robots.txt文件，以确保您不会阻止重要的JavaScript的文件。

或者，使用Semrush的现场审核工具。导航到"问题"选项卡和搜索"被阻止。"

如果检测到问题，请单击蓝色链接。

问题 with blocked internal and external resources in robots.txt脧脗脭脴 found in 现场审核 tool

您将看到被阻止的确切资源。

A list of blocked resources in 现场审核 tool

此时，请咨询您的开发人员。

他们可以识别哪些JavaScript的文件对您网站的功能和内容可见性至关重要，并且不应该被阻止。

14. 重复内容

重复内容是指出现在您网站的多个页面上的相同或几乎相同的内容。

假设您发布了可通过多个Url访问的博客文章:

example.com/blog/your-post
example.com/news/your-post
example.com/articles/your-post

即使内容相同，不同的Url也会导致搜索引擎抓取所有Url。

这浪费了可以更好地花费在其他重要页面上的预算。

使用Semrush的现场审核工具来识别和消除这些问题。

转到"问题"选项卡并搜索"重复内容。"该工具将显示是否检测到任何错误。

4 pages with duplicate content issues found in 现场审核

点击"#页面有重复的内容问题"链接查看所有受影响页面的列表。

A list of pages that have duplicate content issues

如果重复项是错误的，请将这些页面重定向到要保留的主URL。

如果重复项是必要的-例如，如果您有意将相同的内容放在多个部分中以解决不同的受众—则可以实施规范标签.

规范标签帮助搜索引擎识别您想要索引的主页。

15. 差的移动体验

谷歌使用移动优先索引，这意味着它在爬网和索引时通过桌面版本查看网站的移动版本。

如果您的网站需要很长时间才能在移动设备上加载，则会影响您的可抓取性。 Google可能需要分配更多的时间和资源来抓取您的整个网站。

如果您的网站没有响应-也就是说，它无法适应不同的屏幕尺寸或在移动设备上正常工作-Google可能会发现更难理解您的内容并访问其他页面。

要解决此问题，请查看您的网站以了解它在移动设备上的工作方式。

使用Semrush的现场审核在您的网站上查找慢加载页面的工具。

导航到"问题"标签和搜索"速度。"

如果您影响了页面，该工具将显示任何错误，并提供有关如何提高其速度的建议。

An example of why and how to fix a slow page load speed issue

保持领先的可抓取性问题

可抓取性问题不是一次性修复。

即使你现在解决了它们，它们也可能在将来再次出现，特别是如果你的网站很大并且经常发生变化。定期监控您网站的可抓取性至关重要。

使用Semrush的现场审核用于对网站的可抓取性执行自动检查的工具。

导航到您的网站的审核设置，并打开每周审核。

这样，您可以确保及时发现任何可爬网性问题。