什么是可抓取性?

网页的可抓取性是指搜索引擎(如Google)发现页面的容易程度。

谷歌发现网页通过一个过程称为爬行. 它使用称为网络爬虫(也称为机器人或蜘蛛)的计算机程序。 这些程序遵循页面之间的链接来发现新的或更新的页面。

索引通常遵循爬网。

什么是可转位性?

网页的可索引性意味着搜索引擎(如Google)能够将页面添加到其索引中。

将网页添加到索引的过程称为索引. 这意味着谷歌分析页面及其内容,并将其添加到数十亿页面的数据库中(称为谷歌索引).

可抓取性和可索引性如何影响SEO?

可抓取性和可索引性对SEO都至关重要。

这里有一个简单的插图,展示了Google的工作原理:

a simple illustration showing how search engines work

首先,谷歌抓取页面。 然后它索引它。 只有这样,它才能对相关搜索查询的页面进行排名。

换句话说:如果没有首先被抓取和索引,该页面将不会被google排名. 没有排名=没有搜索流量。

谷歌前网络垃圾邮件负责人Matt Cutts在这段视频中解释了这个过程:

Youtube video thumbnail

毫不奇怪,SEO的一个重要部分是确保您网站的页面可抓取和可索引。

但你是怎么做到的?

首先进行技术SEO审计你的网站。

使用Semrush的现场审核帮助你发现的工具可抓取性和可索引性问题. (我们将详细解决这个问题在这篇文章的后面.)

什么影响可抓取性和可转位性?

内部连结

内部连结对您网站的可抓取性和可索引性产生直接影响。

记住-搜索引擎使用机器人来抓取和发现网页。 内部链接作为一个路线图,引导机器人从一个页面到另一个在您的网站。

a simple illustration showing how Google discovers pages

位置良好的内部链接使搜索引擎机器人更容易找到您网站的所有页面。

因此,请确保您网站上的每个页面都是从您网站内的其他位置链接的。

首先,在内容中包含导航菜单、页脚链接和上下文链接。

如果你处于网站开发的早期阶段,创建一个合乎逻辑的地盘结构还可以帮助您建立强大的内部链接基础。

逻辑站点结构将您的网站组织成类别。 然后这些类别链接到您网站上的各个页面。

像这样:

an illustration showing SEO-friendly site architecture

主页连接到每个类别的页面。 然后,每个类别的页面连接到网站上的特定子页面。

通过调整此结构,您将为搜索引擎轻松导航和索引您的内容奠定坚实的基础。

机器人。txt脧脗脭脴

机器人。txt脧脗脭脴就像派对入口处的保镖。

这是你网站上的一个文件,告诉搜索引擎机器人他们可以访问哪些页面。

这是一个机器人示例。txt文件:

用户代理: *

允许:/博客/

禁止:/博客/管理员/

让我们了解这个文件的每个组件。

  • 用户代理: *:此行指定规则适用于所有搜索引擎机器人
  • 允许:/博客/:该指令允许搜索引擎机器人抓取"/blog/"目录中的页面。 换句话说,所有的博客文章都被允许抓取
  • 禁止:/博客/管理员/:该指令告诉搜索引擎机器人不要抓取博客的行政区域

当搜索引擎发送他们的机器人来探索你的网站时,他们首先检查机器人。txt文件来检查限制。

小心不要意外地阻止你希望搜索引擎找到的重要页面。 如您的博客文章和常规网站页面。

此外,虽然机器人。txt控制抓取可访问性,它不会直接影响您网站的可索引性。

搜索引擎仍然可以发现和索引从其他网站链接的页面,即使这些页面在机器人中被阻止。txt文件。

为确保某些页面(如按点击付费(ppc)登陆页面和"谢谢"页面)未编入索引,请实施"noindex"标记。

阅读我们的指南元机器人标签要了解此标签以及如何实现它。

XML站点地图

你的XML站点地图在提高网站的可抓取性和可索引性方面起着至关重要的作用。

它显示搜索引擎机器人所有重要的网页在您的网站,您想抓取和索引。

这就像给他们一张藏宝图,以便更轻松地发现您的内容。

因此,在站点地图中包含所有重要页面。 包括那些可能很难通过常规导航找到的。

这确保搜索引擎机器人可以有效地抓取和索引您的网站。

内容质量

内容质量会影响搜索引擎如何抓取和索引您的网站。

搜索引擎机器人喜欢高质量的内容。 当您的内容写得很好,内容丰富,与用户相关时,它可以吸引搜索引擎的更多关注。

搜索引擎希望向用户提供最佳结果。 因此,他们优先抓取和索引具有一流内容的页面。

专注于创造原创的、有价值的、写得很好的内容.

使用适当的格式,清晰的标题和有组织的结构,使搜索引擎机器人更容易抓取和理解您的内容。

有关创建一流内容的更多建议,请查看我们的指南优质内容.

技术问题

技术问题可以阻止搜索引擎机器人有效地抓取和索引您的网站。

如果您的网站页面加载时间缓慢,链接断开或重定向循环,则可能会阻碍机器人浏览您的网站的能力。

技术问题也可能阻止搜索引擎正确索引您的网页。

例如,如果您的网站有重复的内容问题或使用规范标签不当,搜索引擎可能很难理解要索引和排名的页面版本。

像这样的问题对你的网站的搜索引擎可见性是有害的. 尽快识别并修复这些问题。

如何查找可抓取性和可索引性问题

使用Semrush的现场审核查找技术工具影响网站可抓取性和可索引性的问题.

该工具可以帮助您查找并修复以下问题:

  • 重复内容
  • 重定向循环
  • 损坏的内部链接
  • 服务器端错误

还有更多。

首先,输入你的网站网址,然后按"开始审核.”

塞姆鲁什氏现场审核 tool

下一个,配置审核设置. 完成后,点击"开始现场审核.”

该工具将开始审核您的网站的技术问题。 完成后,它将通过"站点运行状况"指标显示您网站的技术运行状况概述。

an overview report showing website’s technical health

这会以0到100的比例衡量您网站的整体技术健康状况。

要查看与可抓取性和可索引性相关的问题,请导航到"可抓取性"并单击"查看详情.”

“Crawlability” box with “查看详情” button highlighted

这将打开一个详细的报告,突出显示影响您网站的可抓取性和可索引性的问题。

a screenshot of crawlability report

单击每个问题项旁边的水平条形图。 该工具将显示所有受影响的页面。

a list showing 4 pages which have duplicate content issues

如果您不确定如何解决特定问题,请单击"为什么以及如何解决它"链接。

你会看到这个问题的简短描述和如何解决它的建议。

“为什么以及如何解决它” section

通过及时解决每个问题并维护技术上可靠的网站,您将提高可抓取性,帮助确保适当的索引,并增加排名更高的机会。

如何提高可抓取性和可转位性

提交Sitemap到Google

提交您的网站地图文件到谷歌帮助您的网页抓取和索引。

如果您还没有站点地图,请使用站点地图生成器工具创建一个站点地图XML站点地图.

打开该工具,输入您的网站URL,然后单击"开始.”

XML站点地图 tool

该工具将自动为您生成站点地图。

下载站点地图并将其上传到站点的根目录。

例如,如果您的网站是www.example.com,那么你的网站地图应该位于www.example.com/sitemap.xml...

一旦你的站点地图是活的,通过你的谷歌搜索控制台(GSC)帐户。

没有设置GSC? 阅读我们的谷歌搜索控制台指南开始吧。

激活后,导航到"网站地图"从侧边栏。 输入你的网站地图网址,然后按"提交.”

a screenshot showing steps to submitting a sitemap to Google

这提高了网站的可抓取性和索引性。

加强内部联系

网站的可抓取性和可索引性也在于其内部链接结构。

修复与内部链接相关的问题,例如损坏的内部链接和孤立页面(即没有内部链接的页面),并加强您的内部链接结构。

使用Semrush的现场审核用于此目的的工具。

转到"问题"标签和搜索"破碎。"该工具将在您的网站上显示任何损坏的内部链接。

search for “broken” in the

点击"XXX内部链接被打破"以查看损坏的内部链接列表。

a list showing 21 internal links that are broken

要解决损坏的链接,您可以恢复损坏的页面。 或实现一个301重定向到您网站上的相关替代页面

现在要查找孤儿页面,请返回"问题"选项卡并搜索"孤儿"。”

search for

该工具将显示您的网站是否有任何孤立页面。 通过创建指向这些页面的内部链接来解决此问题。

定期更新和添加新内容

定期更新和添加新内容对您网站的可抓取性和可索引性非常有益。

搜索引擎喜欢新鲜的内容。 当您定期更新和添加新内容时,它表明您的网站处于活动状态。

这可以鼓励搜索引擎机器人更频繁地抓取您的网站,确保他们捕获最新的更新。

目标是定期更新您的网站与新的内容,如果可能的话。

无论是发布新的博客文章还是更新现有的博客文章,这都有助于搜索引擎机器人与您的网站保持互动,并使您的内容在其索引中保持新鲜。

避免重复内容

避免重复的内容对于提高网站的可抓取性和可索引性至关重要。

重复的内容会混淆搜索引擎机器人和浪费抓取资源.

当网站的多个页面上存在相同或非常相似的内容时,搜索引擎可能很难确定要抓取和索引的版本。

因此,确保您网站上的每个页面都有独特的内容。 避免复制和粘贴来自其他来源的内容,也不要在多个页面上复制自己的内容。

使用Semrush的现场审核工具来检查您的网站重复的内容。

在"问题"选项卡,搜索"重复的内容。”

search for

如果您发现重复的页面,请考虑将它们合并到一个页面中。 并将重复页面重定向到合并页面。

或者你可以用规范标签. Canonical标签指定搜索引擎应该考虑索引的首选页面。

优化可抓取性和可索引性的工具

日志文件分析器

塞姆鲁什氏日志文件分析器可以向您展示Google的搜索引擎机器人(Googlebot)如何抓取您的网站。 并帮助您发现过程中可能遇到的任何错误。

塞姆鲁什氏日志文件分析器 tool

首先上载访问日志文件您的网站,并等待该工具分析您的文件。

访问日志文件包含机器人和用户发送到您网站的所有请求的列表。 阅读我们的手册在哪里可以找到访问日志文件开始吧。

谷歌搜索控制台

谷歌搜索控制台是一个免费的工具,从谷歌,让您监控您的网站的索引状态。

谷歌搜索控制台

查看您的所有网站页面是否已编入索引。 并找出一些页面没有的原因。

现场审核

现场审核在优化网站的可抓取性和可索引性时,工具是您最亲密的盟友。

该工具报告各种问题,包括许多影响网站可抓取性和可索引性的问题。

an example of overview report in 现场审核 tool

优先考虑可抓取性和可索引性

为搜索引擎优化您的网站的第一步是确保它是可抓取的和可索引的。

如果不是,您的页面将不会显示在搜索结果中。 而且你不会收到有机流量。

现场审核工具及日志文件分析器可以帮助您查找和修复与可抓取性和索引相关的问题。

注册免费。

雷切尔 汉德利
Rachel是一名资深内容作家,在内容营销和SEO方面拥有12年以上的经验。她曾在代理机构工作,为各种品牌制定和执行内容战略,并在内部推动SaaS初创公司的有机增长。