日志文件分析是任何技术和现场SEO审计的重要组成部分。 在真正了解机器人如何抓取您的网站时,日志文件是唯一100%准确的数据。 通过日志分析,您可以比简单的爬网更进一步,排名更高,获得更多流量,转换和销售。

日志文件实际上是从web服务器生成的文件输出,其中包含服务器收到的所有请求的"命中"或记录。 存储数据并提供有关发出请求的时间和日期、请求的URL、用户代理、请求ID地址和其他信息。

让我们看看日志文件分析的优点以及如何免费做到这一点。

日志文件分析的优点

日志文件分析可帮助您了解搜索引擎如何抓取网站及其对SEO的影响。 这些见解对提高您的可抓取性和SEO性能有很大帮助。 利用这些数据,您可以分析爬网行为并确定一些有趣的指标,如:

  • 你的爬网预算是否有效地花了?
  • 爬网过程中遇到了哪些辅助功能错误?
  • 爬行不足的地区在哪里?
  • 哪些是我最活跃的页面?
  • Google不知道哪些页面?

这些只是日志文件分析机会的几个示例。 谷歌确实有爬行预算。 设置正确的改进将帮助您节省此预算,并帮助Google抓取正确的页面并更频繁地出现。

以下是您应该注意的几个指标:

SEO访问次数

日志分析有助于确定网站上收到的SEO访问次数(来自自然结果)。 这些是生成流量的页面。 这些页是正确的吗? 你最有价值的网页是否为你的网站带来了有机的流量? 这是一个非常可行的指标。

爬网频率

日志还允许您确定bot的抓取量,或者换句话说,Googlebot,Bingbot,Yahoo,Yandex或任何其他引擎在一段时间内实现的请求数量。 爬网量显示访问站点的频率。 这个指标有助于观察添加新内容是否增加了机器人的访问。 爬网频率的突然下降会警告您网站上可能发生的更改会阻止这些访问。

9000e89a09a6799bcd6195c9819055a5.png

代码响应中的错误

日志数据分析还可以帮助跟踪状态代码中的错误,如4xx或5xx,这些错误会影响SEO。 分析网站的状态代码还有助于衡量它们对机器人点击及其频率的影响。 太多的404错误会限制爬虫访问。

爬网优先级和活动页面

日志分析也可以帮助确定最受欢迎的网页,谷歌的眼睛,看看哪些是较少抓取。 因此,这些信息可以帮助知道它是否是机器人经常访问的最重要的页面。 这样可以避免忽略网站的某些页面或部分。

事实上,日志分析可以突出显示不经常被机器人抓取的Url或目录。 例如,如果用户希望他的博客的特定出版物在有针对性的查询中排名,但该出版物位于Google每六个月只访问一次的目录中,他将错过从该出版物中获得有机流量的机会至少六个月。 如果是这样的话,他就会知道,这是必要的,例如重新定义他的内部链接推他的"最有价值的网页。”

日志分析还可以帮助了解您最活跃的页面,或者换句话说,接收更多SEO访问的页面。

73f38fefc28869302ca552882a2a683f.png

资源抓取和预算浪费

日志分析还可帮助您确定爬网预算在文件类型中的使用方式。 例如,Google是否花费太多时间抓取图像?

爬网预算是指搜索引擎每次访问您的网站时将爬网的页数。 这个预算是链接到域的权威,你的网站的理智,并与通过网站的链接公平的流动成正比。

实际上,这个抓取预算可能会浪费在不相关的页面上。 想象一下,你每天有100个单位的预算,那么你希望这100个单位花在重要的页面上。

如果机器人在您的网站上遇到太多负面因素,他们不会经常回来,您将浪费您的抓取预算在无用的页面上。 如果你有新的内容,你想被索引,但没有预算留下,那么谷歌不会索引它。

这就是为什么您希望通过日志分析来观察您花费抓取预算的位置,并优化您的网站以增加bot的访问量。

最后爬行日期

日志文件分析告诉Google最后一次抓取特定页面的时间,并且用户希望快速索引。

日志文件分析:免费做

您可以使用开源日志分析器来审计您的搜索引擎优化,如OnCrawl麋鹿一个。 它会帮助你发现:

  • Google抓取的独特页面
  • 按页面组抓取频率
  • 监控状态代码
  • 发现活动页面和非活动页面。

例如,如果您有一个托管在OVH上的网站,并且您已经设置了日志,以使它们按主机类型区分,则流程如下:

1:安装Docker

安装/安装码头工人工具箱

选择Docker Quickstart终端启动

复制/粘贴IP地址192.168.99.100

e2df16e9d7d8bf599d672a7c9353de4c.png

下载oncrawl-elk版本:https://github.com/cogniteev/oncrawl-elk/archive/1.1.zip

添加这些行以创建目录并解压缩文件 :

MacBook-Air:~cogniteev$mkdir oncrawl-elk

MacBook-Air:~cogniteev$cd oncrawl-elk/

MacBook-Air:oncrawl-elk cogniteev$unzip~/Downloads/oncrawl-elk-1.1。拉链

然后:

MacBook-Air:oncrawl-elk cogniteev$cd oncrawl-elk-1.1/

MacBook-Air:oncrawl-elk-1.1cogniteev$docker-compose-f docker-compose。yml up-d

Docker-compose将从docker hub下载所有必要的图像,这可能需要几分钟的时间。 Docker容器启动后,您可以在浏览器中输入以下地址:http://DOCKER-IP:9000. 确保将DOCKER-IP替换为您之前复制的IP。

您应该看到OnCrawl-ELK仪表板,但还没有数据。 让我们带来一些数据来分析。

63b04dc9764a005ee58c24996e1145bc.png

2:导入日志文件

导入数据就像将日志访问文件复制到正确的文件夹一样简单。 Logstash开始索引在logs/apache/*找到的任何文件。日志,日志/nginx/*。日志,自动。

Apache/Nginx日志

如果您的web服务器由Apache或NGinx提供支持,请确保格式为组合日志格式. 它们应该看起来像:

127.0.0.1--[28/8月/2015:06:45:41 +0200] "获取/apache_pb。gif HTTP/1.0"200 2326"http://www.example.com/start.html""Mozilla/5.0(兼容;Googlebot/2.1;+http://www.google.com/bot.html)"

放下你的。相应地将文件记录到日志/apache或日志/nginx目录中。

3:玩

回到http://DOCKER-IP:9000. 你应该有数字和图表。 恭喜!

0db5fef912cf96b29308e61a437f79f9.png

您现在可以开始使用免费的开源日志分析器,每天监控您的SEO性能。 如果您有任何问题,请发表评论。 让我们知道它是如何为你工作的。

雷切尔 汉德利
Rachel是一名资深内容作家,在内容营销和SEO方面拥有12年以上的经验。她曾在代理机构工作,为各种品牌制定和执行内容战略,并在内部推动SaaS初创公司的有机增长。