Introducción
Probablemente hayas o ído hablar de Yandex, el cuarto motor de búsqueda por cuota de mercado en todo el mundo. Ayer se filtró el código fuente propietario de Yandex.
La parte más interesante para la comunidad SEO es: la lista de todos los 1922 factores de clasificación utilizados en el algoritmo de búsqueda
Hemos descargado el código, lo hemos analizado y aquí lo presentamos de forma útil.
El incidente no debería sorprender, ya que Yandex o sus productos suelen sufrir ciberataques. En 2016, Hackread.com informó en exclusiva de cómo un vendedor de la web oscura estaba vendiendo 6,3 millones de datos de cuentas de usuarios de Yandex.
En septiembre de 2021, el gigante ruso de los motores de búsqueda sufrió uno de los mayores ataques DDoS alimentado por 200.000 dispositivos IoT comprometidos.
La plataforma todo en uno para un SEO eficaz
Detrás de todo negocio de éxito hay una sólida campaña de SEO. Pero con las innumerables herramientas y técnicas de optimización que existen para elegir, puede ser difícil saber por dónde empezar. Bueno, no temas más, porque tengo justo lo que necesitas. Presentamos la plataforma todo en uno Ranktracker para un SEO eficaz
¡Por fin hemos abierto el registro a Ranktracker totalmente gratis!
Crear una cuenta gratuitaO inicia sesión con tus credenciales
¿Por qué es tan grande?
Yandex es una de las mayores empresas informáticas de Rusia. Dentro del país ofrece una gama de servicios más amplia que Google. Imagina una empresa que sustituya a Google, Uber, Amazon, Netflix y Spotify.
¿Es real esta filtración?
Personalmente nunca he trabajado en Yandex, pero conozco a varias personas que trabajaron allí en diferentes épocas o trabajan allí todavía. He comprobado que al menos algunos de los archivos contienen con toda seguridad código fuente moderno de los servicios de la empresa, así como documentación que apunta a URL reales de la intranet.
Contenido
El filtrador ha compartido un enlace magnético que contiene 44,7 GB de archivos vinculados a fuentes git de Yandex. Los archivos fueron supuestamente robados de Yandex en julio de 2022. Además de contener directrices antispam, se cree que los repositorios de código contienen el código fuente de Yandex.
La filtración reveló alrededor de 1.922 factores de clasificación que el motor de búsqueda utiliza en su algoritmo de búsqueda. El código se filtró en forma de torrent. Según el análisis publicado por el usuario de Twitter Alex Buraks, los datos filtrados incluyen numerosos factores de clasificación, como la relevancia del texto, el PageRank, la antigüedad del contenido, la frescura, etc.
Probablemente hayas oído hablar de Yandex, el cuarto motor de búsqueda por cuota de mercado en todo el mundo. Ayer se filtró el código fuente de Yandex.
- Alex Buraks (@alex_buraks) 27 de enero de 2023
La parte más interesante para la comunidad SEO es: la lista de todos los 1922 factores de clasificación utilizados en el algoritmo de búsqueda
[🧵THREAD] pic.twitter.com/6x82AAmbON
Además, existen varios factores de comportamiento del usuario final, factores relacionados con los enlaces y la fiabilidad del host. Los SEO encuentran algunos factores de clasificación inusuales, como el número de visitantes únicos, la clasificación media del dominio en las consultas y el porcentaje de tráfico orgánico.
Parece que al menos se ha filtrado el código fuente de los principales servicios de Yandex:
- Motor de búsqueda y bot de indexación
- Mapas - Como Google Maps y Street View
- Alice - Asistente de inteligencia artificial como Siri / Alexa
- Taxi - Servicio de taxi tipo Uber
- Directo - Servicio de anuncios como Google Ads / Adwords
- Correo - Servicio de correo como GMail
- Disco - Servicio de almacenamiento de archivos como Google drive
- Mercado - Marketplace como Amazon
- Viajes - Como un Booking.com más billetes de avión, tren y autobús
- Yandex360 - Como Google Workspaces para servicios en tu propio dominio
- Nube - Probablemente no se filtró todo el código de infraestructura.
- Pay - Procesamiento de pagos como Stripe, pero con un conjunto limitado de funciones
- Metrika - Como Google Analytics
- Y al menos la parte "backend" de la mayoría de los servicios de otras empresas está ahí. El mayor archivo llamado "frontend" aún está por explorar.
Shestakov observó además algunas claves API, que muy probablemente se han utilizado para probar el despliegue.
Detalles sobre esta filtración: pueden encontrarse aquí:
https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/
Yandex niega un intento de pirateo
Yandex afirma que es consciente de la filtración y que ya ha iniciado una investigación para comprobar cómo se expusieron al público "fragmentos" del código fuente. Cabe destacar que la filtración no incluye datos personales de usuarios o empleados.
Sin embargo, teniendo en cuenta la importancia de Yandex en la infraestructura informática de Rusia y los datos filtrados, podría suponerse que el ataque estuvo motivado por la invasión de Ucrania por parte del país. Por tanto, los hackers pro-Ucrania podrían estar implicados.
La plataforma todo en uno para un SEO eficaz
Detrás de todo negocio de éxito hay una sólida campaña de SEO. Pero con las innumerables herramientas y técnicas de optimización que existen para elegir, puede ser difícil saber por dónde empezar. Bueno, no temas más, porque tengo justo lo que necesitas. Presentamos la plataforma todo en uno Ranktracker para un SEO eficaz
¡Por fin hemos abierto el registro a Ranktracker totalmente gratis!
Crear una cuenta gratuitaO inicia sesión con tus credenciales
En su comunicado oficial, Yandex aclaró que la empresa no fue pirateada y que un antiguo empleado podría estar implicado en la filtración de su código fuente al dominio público. La principal empresa rusa de TI señaló que el archivo filtrado incluye fragmentos de código que forman parte de un repositorio interno, cuyos datos son diferentes de los que se utilizan en la última versión del repositorio.
"Yandex no ha sido pirateado. Nuestro servicio de seguridad encontró fragmentos de código de un repositorio interno de dominio público, pero el contenido difiere de la versión actual del repositorio utilizado en los servicios de Yandex", rezaba el comunicado de la compañía.
Sin embargo, las fugas de código fuente son peligrosas porque plantean graves problemas de seguridad a las organizaciones, ya que los actores de las amenazas pueden observar la propiedad intelectual de la empresa y los datos del sistema. La filtración del código fuente ayudaría a los atacantes a crear exploits de seguridad selectivos.
En teoría, ¿cuál es la diferencia entre los algoritmos utilizados en Google y en Yandex?
Son bastante similares:
- existe un análogo de RankBrain: MatrixNet
- utilizan PageRank (casi igual que en Google);
- muchos algoritmos de texto son iguales.
- Hay muchos ex-googlers en Yandex
- Yanex fue construido como un clon de Google;
- Los especialistas en SEO de Rusia utilizan casi las mismas tácticas de SEO de sombrero blanco para Yandex y para Google.
Por supuesto, hay muchas diferencias, pero el enfoque y la mayoría de los factores de clasificación parecen ser similares.
En la práctica: comparando los resultados de búsqueda de Google con los de Yandex coinciden en un ~70%.
Según Statcounter, Yandex está cerca de Yahoo y Bing en cuota de mercado:
El archivo con los factores de clasificación: https://dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0
Estructura de cada factor:
- nombre
- enlace a la wiki interna (restringido)
- AntiSeoUpperBound (jaja)
- descripción (está en ruso, te la he traducido)
- etc
1. Primer factor de la lista: PageRank.
Principales conclusiones tras analizar esta lista: La antigüedad de los enlaces es un factor de clasificación.
2. El tráfico y el % de tráfico orgánico son factores de clasificación.
La compra de PPC afecta a la clasificación.
3. Los números en las URL son malos para la clasificación
4. Demasiadas barras en las URL son perjudiciales para la clasificación
5. Pesimización dura igual a PR=0
6. La fiabilidad del host es un factor de clasificación
Cuantos menos errores 40x/50x tengas, mejor para tu tráfico orgánico
7. Existe un factor de clasificación independiente para la Wikipedia edificante
8. Muchos factores de clasificación relacionados con el comportamiento del usuario: CTR, último clic, tiempo en el sitio, tasa de rebote...
Nota: Estamos casi seguros de que en Yandex esos factores influyen mucho más que en Google.
9. La antigüedad del documento y la última actualización son factores de clasificación
10. La posición media del dominio en todas las consultas es un factor de clasificación
11. La profundidad de rastreo es un factor de clasificación
Mantenga sus páginas importantes más cerca de la página principal:
- páginas principales: 1 clic desde la página principal
- páginas importantes: <3 clics
12. Además: factor de clasificación de las páginas huérfanas
Puede averiguarlo a través de nuestra herramienta de auditoría de sitios web
13. Los backlinks de las páginas principales son más importantes que los de las páginas internas
14. El número de consultas de búsqueda de su sitio/url es un factor de clasificación
Cuantos más, mejor
15. El tráfico de Wikipedia es un factor de clasificación
16. Si su url fuera la última para la sesión de búsqueda (el usuario encontrará lo que necesita) - repercutiría en los rankings
Hay factores estrictos para ello y también factores previsibles.
17. Factor de clasificación de favoritos
Cuantos más usuarios añadan a favoritos una url, más valor factorial tendrá
18. Factores de clasificación especiales para vídeos cortos (tiktok, cortos, reels)
19. Maps js-api on page (por ejemplo Google Maps) es un factor de clasificación
En Google (por ejemplo en el nicho de viajes) añadir mapas con información/funcionalidad útil también funciona.
20. Las palabras clave en la URL son factores de clasificación
Como podemos ver en la descripción, lo óptimo sería incluir hasta 3 palabras de la consulta de búsqueda.
21. Los usuarios recurrentes son un factor de clasificación
Construya productos con buena retención y beneficiará a su SEO (hay muchos factores de clasificación para medirlo).
22. El porcentaje de MAYÚSCULAS en <title> es un factor de clasificación
23. El porcentaje de tráfico directo es un factor de clasificación
Alias. Si todo su tráfico proviene de la búsqueda orgánica - es sospechoso + malo para el ranking.
24. Un factor más de clasificación para la calidad del contenido: vídeo incrustado roto en la página
- Incrustar vídeos: bueno para la clasificación.
- Vídeos incrustados rotos - malo.
25. Las cuentas verificadas en redes sociales se clasifican de forma diferente a otras urls
Importante para las búsquedas de marca: lo ideal sería que al buscar su marca sólo aparecieran sus dominios y redes sociales verificadas entre los 10 primeros.
26. Si los anclajes de tus backlinks contienen todas las palabras de las keywords - es bueno para SEO
Si está en un solo enlace - es más beneficioso. Sobre todo si el orden de las palabras es el mismo.
27. La proporción de backlinks "buenos" frente a "malos" es un factor de clasificación
Ratio "good" vs "bad" backlinks is a ranking factor](/images/i84.png "Ratio "good" vs "bad" backlinks is a ranking factor")
28. El rango de calidad de los textos en el dominio es un factor de clasificación
Las páginas con contenido de baja calidad afectan a todo el dominio.
29. La cantidad de anuncios en una página es un factor de clasificación
30. La aleatoriedad es un factor de clasificación independiente
Cuando no entienda por qué algunas de las páginas están en la parte superior - podría ser simplemente al azar (para probar los factores de comportamiento).
31. JS de Google Analytics es un factor de clasificación
Como era de esperar. Los buenos sitios web utilizan GA / Google analytics con más frecuencia que los malos.
32. Los backlinks de los 100 mejores sitios web por PageRank influyen en las clasificaciones
33. La URL no tiene dígitos
❌ /100-mejores-tarjetas-de-crédito
✅ /mejores-tarjetas-de-crédito
34. Número de barras en la URL
❌ /finanzas/artículos/2023/inversión-consejos
✅ /consejos-de-inversión
35. Número de no-letras en URL
❌ /pet-toys&all$currency=dollar#mobile
✅ /juguetes para mascotas
36. El símbolo '?' en la URL es un factor de clasificación
❌ /movies?genre=action
✅ /action-movies
37. Consulta de búsqueda = URL, incluidos puntos y espacios (??)
El término de búsqueda es "Franklin D. Roosevelt":
❌ /roosevelt
✅ /Franklin_D._Roosevelt
38. Fecha antigua en la URL
❌ /2009/12/01/how-to-tie-a-tie
✅ /cómo-atarse-una-corbata
39. Las palabras clave están en la URL, no en el texto de la página
❌ /videojuegos & página es sobre música
✅ /video-games & page is about videojuegos
40. Cobertura de URL con trigramas de la consulta de búsqueda
✅ /hoteles-nueva-zelandia
❌ /nz
❌ /cheap-hotels-in-new-zealand-best-deals
- Incluya de 1 a 3 palabras importantes en la URL;
- Menos barras oblicuas/dígitos/no letras, si no forma parte de su palabra clave
41. pesos iniciales de los factores de clasificación de Yandex
Pesos finales calculados por AI(matrixnet), pero los valores iniciales también son útiles.
Conclusión
Bueno, ahí lo tenemos, esto es todo lo que vamos a compartir por ahora. Estamos empezando. Esto proporciona una visión general para usted de lo que hay.
No hemos hecho más que arañar la superficie, pero aún nos quedan muchas cosas valiosas por descubrir.
Pero teníamos mucha razón en muchas suposiciones e interpretaciones desde fuera sobre cómo funcionaría un motor de búsqueda tan amplio, al menos en lo que respecta a los enlaces.
En definitiva, la filtración del código de Yandex ofrece una visión fascinante del funcionamiento interno de un motor de búsqueda moderno.
La plataforma todo en uno para un SEO eficaz
Detrás de todo negocio de éxito hay una sólida campaña de SEO. Pero con las innumerables herramientas y técnicas de optimización que existen para elegir, puede ser difícil saber por dónde empezar. Bueno, no temas más, porque tengo justo lo que necesitas. Presentamos la plataforma todo en uno Ranktracker para un SEO eficaz
¡Por fin hemos abierto el registro a Ranktracker totalmente gratis!
Crear una cuenta gratuitaO inicia sesión con tus credenciales
Aunque no todas las conclusiones pueden aplicarse directamente a Google, se confirman muchas de las hipótesis formuladas en los últimos años sobre el funcionamiento general de los grandes motores de búsqueda de Internet.
Supongo que el sector del SEO aún tiene por delante unos cuantos meses interesantes con las nuevas conclusiones de esta filtración.
No pierda de vista esta página, ya que seguiremos añadiendo factores de clasificación en las próximas semanas y meses.
Créditos especiales para https://twitter.com/alex_buraks