大约一年半前,我们为自己设定了一个目标。

这个目标是为我们的客户建立最大、更新最快、质量最高的反向链接数据库,并比市场上领先的竞争对手更好。

现在我们已经达到了我们的目标,我们不能等待你自己测试它!

你想知道我们究竟是如何建立这样一个数据库的吗?

我们投资于基础设施,结合了我们的工程师和数据科学家团队的30,000小时工作,500多台服务器和约16,722杯咖啡。

听起来很简单,对吧?

UdKaZyCr3USOFf8LncnhDx2B05Lglk34LZrzELSG2kb2vzabiGMz8p2Q73ZZgESgKeHPV-pJVYBtaUzMYZmlFF97INx6nmi0ATagbcuIUpPWNNaneLJx53YKdudFoZjFIwgetEr9

看看就行了这篇博客文章看看我们现在的速度有多快。

新的和改进的反向链接数据库

首先让我们来谈谈什么是新的,然后我们将向您展示我们如何实现它以及我们解决了哪些问题。

随着存储空间的增加和抓取工具的增加,我们的反向链接数据库现在有了更多的查找、索引和增长的能力。

平均而言,我们现在正在爬行:

WRcch6FhriDo3poYkn6ap5UUklP-O9QqHhViC-ypXhx5QHCqpR5QD7Cpf81KyQp2AYSVlFwmvUTC8I3RstT4LHsiV7RinIr5b0nMqfW5Amt34QJKE2UlQDCmDu7vKnjlNN8yc8ro

Semrush反向链接数据库的工作原理

在我们深入研究改进之前,让我们先了解一下我们的反向链接数据库操作。

首先,我们生成一个Url队列,用于决定将提交哪些页面进行爬网。

然后我们的爬行者出去检查这些页面. 当我们的抓取工具识别出从这些页面指向互联网上另一个页面的超链接时,他们会保存这些信息。

接下来,将有一个临时存储,它将所有这些数据保存一段时间,然后将其转储到任何Semrush用户都可以在工具中看到的面向公众的存储中。

在我们的新版本中,我们实际上删除了临时存储步骤,添加了3x更多的爬虫,并在队列之前添加了一组过滤器,因此整个过程更加快速和高效。

Vpp98zrhkC5OFJwYmM7O_1ABiuqD9k7dhflA0aXsY6On8_D5xpalKuP-7aWYgOsol73-CnNq45f-Puv96O5oGWItHlFQHo8Hrob0BsTGBbSljoKNv59szC_pJYa1AiiRFx3VwbPy

队列

简单地说,互联网上有太多的页面无法抓取。

有些需要更频繁地爬行,有些根本不必爬行。 因此,我们使用一个队列来决定将以何种顺序提交url以进行爬网。

此步骤中的一个常见问题是抓取太多类似的,不相关的Url,这可能导致人们看到更多的垃圾邮件和更少的唯一引用域。

我们做了什么?

为了优化队列,我们添加了筛选器,这些筛选器优先处理独特的内容、更高权限的网站,并防止链接场。 因此,系统现在可以找到更多独特的内容,并生成更少的重复链接报告。

它现在如何工作的一些亮点:

  • 为了保护我们的队列不受链接场的影响,我们检查是否有大量域来自相同的IP地址。 如果我们看到太多来自同一IP的域,它们在队列中的优先级将降低,使我们能够从不同Ip抓取更多域,而不会卡在链接场上。
  • 为了保护网站和避免污染我们的报告与类似的链接,我们检查是否有太多的网址从同一个域。 如果我们在同一个域上看到太多的Url,它们不会在同一天被抓取。
  • 为了确保我们尽快抓取新的页面,我们以前没有抓取的任何Url都将具有更高的优先级。
  • 每个页面都有自己的哈希代码,可以帮助我们优先抓取独特的内容。
  • 我们考虑到在源页面上生成新链接的频率。
  • 我们会考虑网页和域名的权威评分。

如何改进队列:

  • 10+不同的因素来过滤掉不必要的链接。
  • 由于质量控制的新算法,更独特和高质量的页面。

爬行者

我们的抓取工具遵循互联网上的内部和外部链接,以搜索带有链接的新页面。 因此,我们只能找到一个页面,如果有一个传入的链接到它。

在回顾我们以前的系统时,我们看到了增加整体抓取能力并找到更好内容的机会—网站所有者希望我们抓取和索引的内容。

我们做了什么?

  • 我们的爬行器数量增加了两倍(从10到30)。
  • 停止使用不影响页面内容的url参数(&sessionid、UTM等)抓取页面。).
  • 增加阅读和服从机器人的频率。txt文件在网站上的说明。

爬行器如何改进:

  • 更多的爬行者(现在30!)
  • 干净的数据没有垃圾或重复的链接
  • 更好地找到最相关的内容
  • 每天250亿页的抓取速度

储存库

存储是我们保存所有链接的地方,您可以看到作为Semrush用户。 此存储显示工具中指向您的链接,并提供过滤器,您可以应用这些过滤器来查找您要查找的内容。

我们对旧存储系统的主要担忧是它只能在更新时完全重写。 这意味着每2-3周,它就会被重写,这个过程就会重新开始。

因此,在更新期间,新的链接累积在中间存储中,在工具中对用户的可见性中产生延迟。 我们想看看我们是否可以提高这一步的速度。

我们做了什么?

为了改进这一点,我们从头开始重写架构。 为了消除对临时存储的需求,我们将服务器数量增加了四倍多。

这花了30,000多小时的工程时间来实施最新的技术。 现在,我们有一个可扩展的系统,现在或将来都不会达到任何限制。

如何改进存储:

  • 500+总服务器
  • 287TB RAM内存
  • 16,128CPU核心
  • 30PB总存储空间
  • 快速过滤及报告
  • 即时更新-不再有临时存储

反向链接数据库研究

我们分两部分进行了一项研究,比较了我们的反向链接分析与Moz,Ahrefs和Majestic的速度。

要确切了解我们的工具与市场上的其他SEO工具相比运行速度有多快,请阅读这篇博客文章.

我们为我们新的反向链接分析数据库感到自豪,我们希望每个人都能体验到它所提供的一切。

试试吧,让我们知道你的想法!

欢迎来到动态反向链接管理的未来!

Harry Wong
Harry是多年B2B外贸营销领域从业者,在Alibaba国际等公司有多年的外贸营销推广工作经验