• 技术

Yandex泄露的代码包含1922个搜索排名因素 Ranktracker解释所有的排名因素

  • Felix Rose-Collins
  • 7 min read
Yandex泄露的代码包含1922个搜索排名因素 Ranktracker解释所有的排名因素

介绍

你可能听说过Yandex,它是全球第四大市场份额的搜索引擎。昨天,Yandex的专有源代码被泄露了

对SEO界来说,最有趣的部分是:搜索算法中使用的所有1922个排名因素的清单。

我们已经下载了代码,对其进行了分析,并在此以一种有用的方式介绍。

Yandex leak

这一事件不应该令人惊讶,因为Yandex或其产品经常受到网络攻击。2016年,Hackread.com独家报道了一个暗网供应商如何出售630万Yandex用户账户数据。

2021年9月,俄罗斯搜索引擎巨头遭到了由20万台被攻击的物联网设备驱动的最大DDoS攻击之一。

遇见Ranktracker

有效SEO的一体化平台

每个成功的企业背后都有一个强大的SEO活动。但是,有无数的优化工具和技术可供选择,很难知道从哪里开始。好了,不要再害怕了,因为我已经得到了可以帮助的东西。介绍一下Ranktracker有效的SEO一体化平台

我们终于开放了Ranktracker的注册,完全免费!

创建一个免费账户

或使用您的证书登录

Yandex git sources

为什么这么大?

Yandex是俄罗斯最大的IT公司之一。在国内,它提供的服务范围比谷歌更广。想象一下,有一家公司可以取代谷歌、Uber、亚马逊、Netflix和Spotify。

这个泄漏是真的吗?

我个人从未在Yandex工作过,但我认识几个在不同时期在那里工作或仍在那里工作的人。我验证了至少有一些档案肯定包含公司服务的现代源代码,以及指向真实内网URL的文档。

里面有什么

泄密者分享了一个磁铁链接,其中包含44.7GB的文件,与Yandex的git源链接。据称这些文件是在2022年7月从Yandex盗取的。除了包含反垃圾邮件指南,代码库被认为有Yandex的源代码。

这次泄漏揭示了搜索引擎在其搜索算法中使用的大约1,922个排名因素。该代码是以洪流形式泄露的。根据Twitter用户Alex Buraks发布的分析,泄露的数据包括许多排名因素,包括文本相关性、PageRank、内容年龄、新鲜度等。

此外,还存在一些终端用户行为因素、链接相关因素和主机可靠性。SEO发现一些不寻常的排名因素,如独立访客的数量、跨查询的平均域名排名和有机流量的百分比。

看起来,至少Yandex所有主要服务的源代码被泄露了。

  • 搜索引擎和索引机器人
  • 地图--如谷歌地图和街景
  • 爱丽丝 - 像Siri/Alexa一样的人工智能助手
  • 出租车--类似Uber的出租车服务
  • 直接 - 广告服务,如谷歌广告/Adwords
  • 邮件 - 邮件服务,如GMail
  • 磁盘 - 文件存储服务,如谷歌驱动器
  • 市场--像亚马逊一样的市场
  • 旅行 - 像Booking.com一样,加上飞机票、火车票和巴士票
  • Yandex360 - 就像Google Workspaces一样,为您自己的域名提供服务
  • 云 - 可能不是所有的基础设施代码都被泄露了。
  • 支付 - 像Stripe一样的支付处理,但功能有限。
  • Metrika - 像谷歌分析一样
  • 而且,至少其他大多数公司服务的后台部分都在那里。最大的档案库被称为 "前端",有待于探索。

谢斯塔科夫进一步指出一些API密钥,这些密钥很可能被用来测试部署。

关于这次泄漏的细节:可以在这里找到。

https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/

Yandex否认黑客攻击企图

Yandex公司声称,它知道这次泄漏,并且已经开始调查,检查源代码 "片段 "是如何暴露在公众面前的。值得注意的是,这次泄漏并不包括用户或员工的个人数据。

然而,考虑到Yandex在俄罗斯IT基础设施中的重要性和泄露的数据,可以认为这次攻击是出于该国入侵乌克兰的动机。因此,亲乌克兰的黑客可能参与其中。

遇见Ranktracker

有效SEO的一体化平台

每个成功的企业背后都有一个强大的SEO活动。但是,有无数的优化工具和技术可供选择,很难知道从哪里开始。好了,不要再害怕了,因为我已经得到了可以帮助的东西。介绍一下Ranktracker有效的SEO一体化平台

我们终于开放了Ranktracker的注册,完全免费!

创建一个免费账户

或使用您的证书登录

Yandex在其官方声明中澄清,该公司没有被黑客攻击,一名前雇员可能参与了在公共领域泄露其源代码的行为。俄罗斯领先的IT公司指出,被泄露的档案包括属于内部资源库的代码片段,其中的数据与最新版本的资源库所使用的不同。

"Yandex没有被黑。我们的安全服务在公共领域发现了一个内部仓库的代码片段,但其内容与Yandex服务中使用的仓库的当前版本不同,"该公司的声明说。

然而,源代码泄露对组织构成严重的安全问题是危险的,因为威胁者可以观察到公司的知识产权和系统数据。源代码的泄露会帮助攻击者创造有针对性的安全漏洞。

从理论上讲,谷歌和Yandex使用的算法有什么区别?

它们是相当相似的。

  • RankBrain的类似物--MatrixNet
  • 他们正在使用PageRank(几乎与谷歌相同)。
  • 很多文本算法都是一样的。

Yandex vs Google

  • 在Yandex有很多前googlers
  • Yanex是作为谷歌的克隆而建立的。
  • 俄罗斯的SEO专家对Yandex和Google使用几乎相同的白帽SEO策略

当然有很多不同之处,但方法和大多数排名因素似乎是相似的。

在实践中:比较谷歌和Yandex的搜索结果,它们的匹配度为70%。

根据Statcounter的数据,Yandex的市场份额与雅虎和Bing接近。

search engine market share worldwide

包含排名因素的文件:https://dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0

每个因素的结构。

  1. 名称
  2. 链接到内部维基(限制性)。
  3. AntiSeoUpperBound(哈哈)。
  4. 描述(是俄语,我为你翻译了)。
  5. 等等

1.列表中的第一个因素 - PageRank。

First factor in the list - PageRank

分析这个名单后的主要见解。链接的年龄是一个排名因素。

Age of links is a ranking factor.

2.流量和有机流量的百分比是排名的因素。

购买PPC会影响排名。

Traffic and % of organic traffic are ranking factors

3.URL中的数字对排名不利

Numbers in URLs is bad for rankings

4.URL中的斜线太多,对排名不利

Too many slashes in URLs is bad for ranking

5.硬悲观化等于PR=0

Hard pessimization equal PR=0

6.主机可靠性是一个排名因素

你的40x/50x错误越少,对你的有机流量越有利

Host reliability is a ranking factor

7. 振奋人心的维基百科有一个单独的排名因素

there is a separate ranking factor for uplifting Wikipedia

8.很多与用户行为有关的排名因素--点击率、最后一次点击、网站停留时间、跳出率

注意:我们几乎可以肯定,在Yandex,这些因素的影响要比在Google大得多。

A lot of ranking factors connected with user behaviour - CTR, last-click, time on site, bounce rate

9.文件年龄和最后一次更新都是排名因素

Document age and last update both are ranking factors

10.所有查询中的平均域名位置是一个排名因素

Average domain position across all queries is a ranking factor

11.抓取深度是一个排名因素

让你的重要页面更接近主页面。

  • 顶级页面。从主页面点击1次
  • 重要页面:<3次点击

Crawl depth is a ranking factor

12.另外:孤儿网页的排名因素

你可以通过我们的网站审计工具找到这一点

Additionally: ranking factor for orphan pages

13.来自主页面的反向链接比来自内部页面的反向链接更重要

Backlinks from main pages are more important than from internal pages

14.你的网站/url的搜索查询次数是一个排名因素

越多越好

Number of search queries of your site/url is a ranking factor

15.来自维基百科的流量是一个排名因素

Traffic from Wikipedia is a ranking factor

16. 如果你的网址是搜索会话的最后一个(用户会找到他需要的东西)--它将影响排名

这其中有严格的因素,也有可预测的因素。

If your url would be the last for search session (user will find what he needs) - it would impact rankings

17.书签排名因素

越多的用户将一个网址添加到书签中,它的因素价值就越大。

Bookmarks ranking factor

18.短视频(tiktok、短片、卷轴)的特殊排名因素

Special ranking factors for short videos (tiktok, shorts, reels)

19.页面上的地图js-api(例如谷歌地图)是一个排名因素

在谷歌(例如在旅游利基市场),添加带有有用信息/功能的地图也在发挥作用。

Maps js-api on page (for example Google Maps) is a ranking factor

20.URL中的关键词是排名因素

从描述中我们可以看到--最佳将包括搜索查询中最多3个词。

Keywords in URL are ranking factors

21.回访用户是一个排名因素

建立具有良好保留率的产品,这将有利于你的SEO(有很多衡量它的排名因素)。

Returning users is a ranking factor

22.<title>中大写字母的百分比是一个排名因素

Percentage of CAPITAL LETTERS in title> is a ranking factor

23.直接交通的百分比是一个排名因素

也就是。如果你所有的流量都来自于有机搜索--这是很可疑的+不利于排名的。

Percentage of direct traffic is a ranking factor

24.内容质量的另一个排名因素--页面上破碎的嵌入式视频

  • 嵌入视频 - 有利于排名。
  • 破碎的嵌入视频--糟糕。

One more ranking factor for content quality - broken embedded video on the page

25.社交网络上经过验证的账户的排名与其他尿液不同

对品牌搜索很重要--理想情况下,搜索你的品牌,前10名中应该只有你的域名+经过验证的社交网络。

Verified accounts on social networks ranks differently as other urls

26.如果你的反向链接的锚点包含了所有的关键词 - 这对SEO是有好处的。

如果是在一个链接中--那就更有利。特别是如果单词的顺序是相同的。

If your backlinks anchors contain all words from the keywords - it's good for SEO

27.好的 "与 "坏的 "反向链接的比例是一个排名因素

!["好 "与 "坏 "反向链接的比率是一个排名因素](https://www.ranktracker.com/media/yandex-leaked-code-containing-search-ranking-factors-ranktracker-explains-all-ranking-factors/images/i84.png ""好 "与 "坏 "反向链接的比率是一个排名因素" )

28.域名中文本的质量等级是一个排名因素

内容质量低下的页面会影响整个域名。

The quality rank of texts on the domain is a ranking factor

29.一个页面上的广告数量是一个排名因素

Amount of advertisements on a page is a ranking factor

30.有随机性作为一个独立的排名因素

当你不明白为什么有些页面在上面时--可能只是随机的(为了测试行为因素)。

There is a random as a separate ranking factor

31.来自谷歌分析的JS是一个排名因素

可以预见的是。好的网站比坏的网站更经常使用GA / Google分析

JS from Google Analytics is a ranking factor

32.按PageRank排名的前100名最佳网站的反向链接对排名的影响

Backlinks from the top 100 best websites by PageRank impacts on rankings

33.URL没有数字

/100-best-credit-card

/best-credit-card

URL has no digits

34.URL中的斜线数量

/finance/articles/2023/investment-advices

/investment-advices

Number of slashes in URL

35.URL中非字母的数量

/pet-toys&all$currency=dollar#mobile

/pet-toys

Number of non-letters in URL

36.URL中的'?'符号是一个排名因素

/movies?genre=action

/action-movies

'?' symbol in the URL is a ranking factor

37.搜索查询=URL,包括点和空格(??)

搜索查询是 "Franklin D. Roosevelt"。

/roosevelt

/Franklin_D._Roosevelt

Search query = URL, including dots and spaces (??)

38.URL中的旧日期

/2009/12/01/how-to-tie-a-tie

/how-to-tie-a-tie

Old date in the URL

39. 关键词是在URL中,而不是在页面的文本中

/视频游戏和页面是关于音乐的

/video-games & page is about video games

Keywords is in URL, not in the text of the page

40.用搜索查询中的三角词覆盖URL

/Hotels-new-zealand

/nz

/cheap-hotel-in-new-zealand-best-deals

URL coverage with trigrams from the search query

  • 在URL中包括1-3个最重要的词。
  • 减少斜线/数字/非字母,如果它不是你的关键词的一部分

41.Yandex排名因素的初始权重

最终权重由AI(矩阵网)计算,但初始值也是有用的。

initial weights of Yandex ranking factors

总结

好了,我们有了,这就是我们目前所要分享的。 我们才刚刚开始。这为你提供了一个关于其中内容的粗略概述。

我们在这里只是触及表面,前面还有许多有价值的见解。

但是,对于这样一个广泛的搜索引擎将如何工作,至少在链接方面,我们从外部作出的许多假设和解释是非常正确的。

总而言之,Yandex的代码泄露提供了对一个现代搜索引擎内部工作的迷人洞察力。

遇见Ranktracker

有效SEO的一体化平台

每个成功的企业背后都有一个强大的SEO活动。但是,有无数的优化工具和技术可供选择,很难知道从哪里开始。好了,不要再害怕了,因为我已经得到了可以帮助的东西。介绍一下Ranktracker有效的SEO一体化平台

我们终于开放了Ranktracker的注册,完全免费!

创建一个免费账户

或使用您的证书登录

尽管并非所有的研究结果都可以直接应用于谷歌,但近年来关于大型互联网搜索引擎的一般运作的许多假设都得到了证实。

我想SEO行业仍有几个有趣的月份,从这次泄漏中得到新的见解。

请密切关注这个页面,因为我们将在未来几周和几个月内继续增加排名因素。

特别鸣谢:https://twitter.com/alex_buraks

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

开始使用Ranktracker...免费的!

找出阻碍你的网站排名的原因。

创建一个免费账户

或使用您的证书登录

Different views of Ranktracker app