• Tecnología

Yandex filtra un código con 1.922 factores de clasificación Ranktracker explica todos los factores de clasificación

  • Felix Rose-Collins
  • 8 min read
Yandex filtra un código con 1.922 factores de clasificación Ranktracker explica todos los factores de clasificación

Introducción

Probablemente hayas oído hablar de Yandex, el cuarto motor de búsqueda por cuota de mercado en todo el mundo. Ayer se filtró el código fuente propietario de Yandex.

La parte más interesante para la comunidad SEO es: la lista de todos los 1922 factores de clasificación utilizados en el algoritmo de búsqueda

Hemos descargado el código, lo hemos analizado y aquí lo presentamos de forma útil.

Yandex leak

El incidente no debería sorprender, ya que Yandex o sus productos suelen sufrir ciberataques. En 2016, Hackread.com informó en exclusiva de cómo un vendedor de la web oscura estaba vendiendo 6,3 millones de datos de cuentas de usuarios de Yandex.

En septiembre de 2021, el gigante ruso de los motores de búsqueda sufrió uno de los mayores ataques DDoS alimentado por 200.000 dispositivos IoT comprometidos.

Conoce Ranktracker

La plataforma todo en uno para un SEO eficaz

Detrás de todo negocio de éxito hay una sólida campaña de SEO. Pero con las innumerables herramientas y técnicas de optimización que existen para elegir, puede ser difícil saber por dónde empezar. Bueno, no temas más, porque tengo justo lo que necesitas. Presentamos la plataforma todo en uno Ranktracker para un SEO eficaz

¡Por fin hemos abierto el registro a Ranktracker totalmente gratis!

Crear una cuenta gratuita

O inicia sesión con tus credenciales

Yandex git sources

¿Por qué es tan grande?

Yandex es una de las mayores empresas informáticas de Rusia. Dentro del país ofrece una gama de servicios más amplia que Google. Imagina una empresa que sustituya a Google, Uber, Amazon, Netflix y Spotify.

¿Es real esta filtración?

Personalmente nunca he trabajado en Yandex, pero conozco a varias personas que trabajaron allí en diferentes épocas o trabajan allí todavía. He comprobado que al menos algunos de los archivos contienen con toda seguridad código fuente moderno de los servicios de la empresa, así como documentación que apunta a URL reales de la intranet.

Contenido

El filtrador ha compartido un enlace magnético que contiene 44,7 GB de archivos vinculados a fuentes git de Yandex. Los archivos fueron supuestamente robados de Yandex en julio de 2022. Además de contener directrices antispam, se cree que los repositorios de código contienen el código fuente de Yandex.

La filtración reveló alrededor de 1.922 factores de clasificación que el motor de búsqueda utiliza en su algoritmo de búsqueda. El código se filtró en forma de torrent. Según el análisis publicado por el usuario de Twitter Alex Buraks, los datos filtrados incluyen numerosos factores de clasificación, como la relevancia del texto, el PageRank, la antigüedad del contenido, la frescura, etc.

Además, existen varios factores de comportamiento del usuario final, factores relacionados con los enlaces y la fiabilidad del host. Los SEO encuentran algunos factores de clasificación inusuales, como el número de visitantes únicos, la clasificación media del dominio en las consultas y el porcentaje de tráfico orgánico.

Parece que al menos se ha filtrado el código fuente de los principales servicios de Yandex:

  • Motor de búsqueda y bot de indexación
  • Mapas - Como Google Maps y Street View
  • Alice - Asistente de inteligencia artificial como Siri / Alexa
  • Taxi - Servicio de taxi tipo Uber
  • Directo - Servicio de anuncios como Google Ads / Adwords
  • Correo - Servicio de correo como GMail
  • Disco - Servicio de almacenamiento de archivos como Google drive
  • Mercado - Marketplace como Amazon
  • Viajes - Como un Booking.com más billetes de avión, tren y autobús
  • Yandex360 - Como Google Workspaces para servicios en tu propio dominio
  • Nube - Probablemente no se filtró todo el código de infraestructura.
  • Pay - Procesamiento de pagos como Stripe, pero con un conjunto limitado de funciones
  • Metrika - Como Google Analytics
  • Y al menos la parte "backend" de la mayoría de los servicios de otras empresas está ahí. El mayor archivo llamado "frontend" aún está por explorar.

Shestakov observó además algunas claves API, que muy probablemente se han utilizado para probar el despliegue.

Detalles sobre esta filtración: pueden encontrarse aquí:

https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/

Yandex niega un intento de pirateo

Yandex afirma que es consciente de la filtración y que ya ha iniciado una investigación para comprobar cómo se expusieron al público "fragmentos" del código fuente. Cabe destacar que la filtración no incluye datos personales de usuarios o empleados.

Sin embargo, teniendo en cuenta la importancia de Yandex en la infraestructura informática de Rusia y los datos filtrados, podría suponerse que el ataque estuvo motivado por la invasión de Ucrania por parte del país. Por tanto, los hackers pro-Ucrania podrían estar implicados.

Conoce Ranktracker

La plataforma todo en uno para un SEO eficaz

Detrás de todo negocio de éxito hay una sólida campaña de SEO. Pero con las innumerables herramientas y técnicas de optimización que existen para elegir, puede ser difícil saber por dónde empezar. Bueno, no temas más, porque tengo justo lo que necesitas. Presentamos la plataforma todo en uno Ranktracker para un SEO eficaz

¡Por fin hemos abierto el registro a Ranktracker totalmente gratis!

Crear una cuenta gratuita

O inicia sesión con tus credenciales

En su comunicado oficial, Yandex aclaró que la empresa no fue pirateada y que un antiguo empleado podría estar implicado en la filtración de su código fuente al dominio público. La principal empresa rusa de TI señaló que el archivo filtrado incluye fragmentos de código que forman parte de un repositorio interno, cuyos datos son diferentes de los que se utilizan en la última versión del repositorio.

"Yandex no ha sido pirateado. Nuestro servicio de seguridad encontró fragmentos de código de un repositorio interno de dominio público, pero el contenido difiere de la versión actual del repositorio utilizado en los servicios de Yandex", rezaba el comunicado de la compañía.

Sin embargo, las fugas de código fuente son peligrosas porque plantean graves problemas de seguridad a las organizaciones, ya que los actores de las amenazas pueden observar la propiedad intelectual de la empresa y los datos del sistema. La filtración del código fuente ayudaría a los atacantes a crear exploits de seguridad selectivos.

En teoría, ¿cuál es la diferencia entre los algoritmos utilizados en Google y en Yandex?

Son bastante similares:

  • existe un análogo de RankBrain: MatrixNet
  • utilizan PageRank (casi igual que en Google);
  • muchos algoritmos de texto son iguales.

Yandex vs Google

  • Hay muchos ex-googlers en Yandex
  • Yanex fue construido como un clon de Google;
  • Los especialistas en SEO de Rusia utilizan casi las mismas tácticas de SEO de sombrero blanco para Yandex y para Google.

Por supuesto, hay muchas diferencias, pero el enfoque y la mayoría de los factores de clasificación parecen ser similares.

En la práctica: comparando los resultados de búsqueda de Google con los de Yandex coinciden en un ~70%.

Según Statcounter, Yandex está cerca de Yahoo y Bing en cuota de mercado:

search engine market share worldwide

El archivo con los factores de clasificación: https://dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0

Estructura de cada factor:

  1. nombre
  2. enlace a la wiki interna (restringido)
  3. AntiSeoUpperBound (jaja)
  4. descripción (está en ruso, te la he traducido)
  5. etc

1. Primer factor de la lista: PageRank.

First factor in the list - PageRank

Principales conclusiones tras analizar esta lista: La antigüedad de los enlaces es un factor de clasificación.

Age of links is a ranking factor.

2. El tráfico y el % de tráfico orgánico son factores de clasificación.

La compra de PPC afecta a la clasificación.

Traffic and % of organic traffic are ranking factors

3. Los números en las URL son malos para la clasificación

Numbers in URLs is bad for rankings

4. Demasiadas barras en las URL son perjudiciales para la clasificación

Too many slashes in URLs is bad for ranking

5. Pesimización dura igual a PR=0

Hard pessimization equal PR=0

6. La fiabilidad del host es un factor de clasificación

Cuantos menos errores 40x/50x tengas, mejor para tu tráfico orgánico

Host reliability is a ranking factor

7. Existe un factor de clasificación independiente para la Wikipedia edificante

there is a separate ranking factor for uplifting Wikipedia

8. Muchos factores de clasificación relacionados con el comportamiento del usuario: CTR, último clic, tiempo en el sitio, tasa de rebote...

Nota: Estamos casi seguros de que en Yandex esos factores influyen mucho más que en Google.

A lot of ranking factors connected with user behaviour - CTR, last-click, time on site, bounce rate

9. La antigüedad del documento y la última actualización son factores de clasificación

Document age and last update both are ranking factors

10. La posición media del dominio en todas las consultas es un factor de clasificación

Average domain position across all queries is a ranking factor

11. La profundidad de rastreo es un factor de clasificación

Mantenga sus páginas importantes más cerca de la página principal:

  • páginas principales: 1 clic desde la página principal
  • páginas importantes: <3 clics

Crawl depth is a ranking factor

12. Además: factor de clasificación de las páginas huérfanas

Puede averiguarlo a través de nuestra herramienta de auditoría de sitios web

Additionally: ranking factor for orphan pages

13. Los backlinks de las páginas principales son más importantes que los de las páginas internas

Backlinks from main pages are more important than from internal pages

14. El número de consultas de búsqueda de su sitio/url es un factor de clasificación

Cuantos más, mejor

Number of search queries of your site/url is a ranking factor

15. El tráfico de Wikipedia es un factor de clasificación

Traffic from Wikipedia is a ranking factor

16. Si su url fuera la última para la sesión de búsqueda (el usuario encontrará lo que necesita) - repercutiría en los rankings

Hay factores estrictos para ello y también factores previsibles.

If your url would be the last for search session (user will find what he needs) - it would impact rankings

17. Factor de clasificación de favoritos

Cuantos más usuarios añadan a favoritos una url, más valor factorial tendrá

Bookmarks ranking factor

18. Factores de clasificación especiales para vídeos cortos (tiktok, cortos, reels)

Special ranking factors for short videos (tiktok, shorts, reels)

19. Maps js-api on page (por ejemplo Google Maps) es un factor de clasificación

En Google (por ejemplo en el nicho de viajes) añadir mapas con información/funcionalidad útil también funciona.

Maps js-api on page (for example Google Maps) is a ranking factor

20. Las palabras clave en la URL son factores de clasificación

Como podemos ver en la descripción, lo óptimo sería incluir hasta 3 palabras de la consulta de búsqueda.

Keywords in URL are ranking factors

21. Los usuarios recurrentes son un factor de clasificación

Construya productos con buena retención y beneficiará a su SEO (hay muchos factores de clasificación para medirlo).

Returning users is a ranking factor

22. El porcentaje de MAYÚSCULAS en <title> es un factor de clasificación

Percentage of CAPITAL LETTERS in title> is a ranking factor

23. El porcentaje de tráfico directo es un factor de clasificación

Alias. Si todo su tráfico proviene de la búsqueda orgánica - es sospechoso + malo para el ranking.

Percentage of direct traffic is a ranking factor

24. Un factor más de clasificación para la calidad del contenido: vídeo incrustado roto en la página

  • Incrustar vídeos: bueno para la clasificación.
  • Vídeos incrustados rotos - malo.

One more ranking factor for content quality - broken embedded video on the page

25. Las cuentas verificadas en redes sociales se clasifican de forma diferente a otras urls

Importante para las búsquedas de marca: lo ideal sería que al buscar su marca sólo aparecieran sus dominios y redes sociales verificadas entre los 10 primeros.

Verified accounts on social networks ranks differently as other urls

26. Si los anclajes de tus backlinks contienen todas las palabras de las keywords - es bueno para SEO

Si está en un solo enlace - es más beneficioso. Sobre todo si el orden de las palabras es el mismo.

If your backlinks anchors contain all words from the keywords - it's good for SEO

27. La proporción de backlinks "buenos" frente a "malos" es un factor de clasificación

Ratio "good" vs "bad" backlinks is a ranking factor](/images/i84.png "Ratio "good" vs "bad" backlinks is a ranking factor")

28. El rango de calidad de los textos en el dominio es un factor de clasificación

Las páginas con contenido de baja calidad afectan a todo el dominio.

The quality rank of texts on the domain is a ranking factor

29. La cantidad de anuncios en una página es un factor de clasificación

Amount of advertisements on a page is a ranking factor

30. La aleatoriedad es un factor de clasificación independiente

Cuando no entienda por qué algunas de las páginas están en la parte superior - podría ser simplemente al azar (para probar los factores de comportamiento).

There is a random as a separate ranking factor

31. JS de Google Analytics es un factor de clasificación

Como era de esperar. Los buenos sitios web utilizan GA / Google analytics con más frecuencia que los malos.

JS from Google Analytics is a ranking factor

32. Los backlinks de los 100 mejores sitios web por PageRank influyen en las clasificaciones

Backlinks from the top 100 best websites by PageRank impacts on rankings

33. La URL no tiene dígitos

/100-mejores-tarjetas-de-crédito

/mejores-tarjetas-de-crédito

URL has no digits

34. Número de barras en la URL

/finanzas/artículos/2023/inversión-consejos

/consejos-de-inversión

Number of slashes in URL

35. Número de no-letras en URL

/pet-toys&all$currency=dollar#mobile

/juguetes para mascotas

Number of non-letters in URL

36. El símbolo '?' en la URL es un factor de clasificación

/movies?genre=action

/action-movies

'?' symbol in the URL is a ranking factor

37. Consulta de búsqueda = URL, incluidos puntos y espacios (??)

El término de búsqueda es "Franklin D. Roosevelt":

/roosevelt

/Franklin_D._Roosevelt

Search query = URL, including dots and spaces (??)

38. Fecha antigua en la URL

/2009/12/01/how-to-tie-a-tie

/cómo-atarse-una-corbata

Old date in the URL

39. Las palabras clave están en la URL, no en el texto de la página

/videojuegos & página es sobre música

/video-games & page is about videojuegos

Keywords is in URL, not in the text of the page

40. Cobertura de URL con trigramas de la consulta de búsqueda

/hoteles-nueva-zelandia

/nz

/cheap-hotels-in-new-zealand-best-deals

URL coverage with trigrams from the search query

  • Incluya de 1 a 3 palabras importantes en la URL;
  • Menos barras oblicuas/dígitos/no letras, si no forma parte de su palabra clave

41. pesos iniciales de los factores de clasificación de Yandex

Pesos finales calculados por AI(matrixnet), pero los valores iniciales también son útiles.

initial weights of Yandex ranking factors

Conclusión

Bueno, ahí lo tenemos, esto es todo lo que vamos a compartir por ahora. Estamos empezando. Esto proporciona una visión general para usted de lo que hay.

No hemos hecho más que arañar la superficie, pero aún nos quedan muchas cosas valiosas por descubrir.

Pero teníamos mucha razón en muchas suposiciones e interpretaciones desde fuera sobre cómo funcionaría un motor de búsqueda tan amplio, al menos en lo que respecta a los enlaces.

En definitiva, la filtración del código de Yandex ofrece una visión fascinante del funcionamiento interno de un motor de búsqueda moderno.

Conoce Ranktracker

La plataforma todo en uno para un SEO eficaz

Detrás de todo negocio de éxito hay una sólida campaña de SEO. Pero con las innumerables herramientas y técnicas de optimización que existen para elegir, puede ser difícil saber por dónde empezar. Bueno, no temas más, porque tengo justo lo que necesitas. Presentamos la plataforma todo en uno Ranktracker para un SEO eficaz

¡Por fin hemos abierto el registro a Ranktracker totalmente gratis!

Crear una cuenta gratuita

O inicia sesión con tus credenciales

Aunque no todas las conclusiones pueden aplicarse directamente a Google, se confirman muchas de las hipótesis formuladas en los últimos años sobre el funcionamiento general de los grandes motores de búsqueda de Internet.

Supongo que el sector del SEO aún tiene por delante unos cuantos meses interesantes con las nuevas conclusiones de esta filtración.

No pierda de vista esta página, ya que seguiremos añadiendo factores de clasificación en las próximas semanas y meses.

Créditos especiales para https://twitter.com/alex_buraks

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

Empieza a usar Ranktracker... ¡Gratis!

Averigüe qué está impidiendo que su sitio web se clasifique.

Crear una cuenta gratuita

O inicia sesión con tus credenciales

Different views of Ranktracker app