Introducere
Probabil că ați auzit de Yandex, al patrulea motor de căutare ca mărime după cota de piață la nivel mondial. Ieri, codul sursă proprietar al Yandex a fost dezvăluit.
Cea mai interesantă parte pentru comunitatea SEO este: lista tuturor celor 1922 factori de ranking folosiți în algoritmul de căutare
Am descărcat codul, l-am analizat și îl prezentăm aici într-un mod util.
Incidentul nu ar trebui să vină ca o surpriză, deoarece Yandex sau produsele sale sunt deseori supuse unor atacuri cibernetice. În 2016, Hackread.com a relatat în exclusivitate cum un furnizor de pe dark web vindea 6,3 milioane de date de conturi de utilizatori Yandex.
În septembrie 2021, gigantul rusesc al motoarelor de căutare a fost lovit de unul dintre cele mai mari atacuri DDoS alimentate de 200.000 de dispozitive IoT compromise.
Platforma All-in-One pentru un SEO eficient
În spatele fiecărei afaceri de succes se află o campanie SEO puternică. Dar, având în vedere că există nenumărate instrumente și tehnici de optimizare din care puteți alege, poate fi greu să știți de unde să începeți. Ei bine, nu vă mai temeți, pentru că am exact ceea ce vă poate ajuta. Vă prezentăm platforma Ranktracker all-in-one pentru un SEO eficient
Am deschis în sfârșit înregistrarea la Ranktracker absolut gratuit!
Creați un cont gratuitSau Conectați-vă folosind acreditările dvs.
De ce este aceasta mare?
Yandex este una dintre cele mai mari companii IT din Rusia. În interiorul țării, aceasta oferă o gamă mai largă de servicii decât Google. Imaginați-vă o companie care să înlocuiască Google, Uber, Amazon, Netflix și Spotify.
Este reală această scurgere de informații?
Eu personal nu am lucrat niciodată la Yandex, dar cunosc mai multe persoane care au lucrat acolo în diferite perioade sau care lucrează încă acolo. Am verificat că cel puțin unele dintre arhive conțin cu siguranță cod sursă modern pentru serviciile companiei, precum și documentație care indică URL-uri reale de intranet.
Ce este înăuntru
Persoana care a divulgat informațiile a partajat un link magnet care conține 44,7 GB de fișiere legate de sursele Yandex git. Se presupune că fișierele au fost furate de la Yandex în iulie 2022. În afară de faptul că conțin orientări anti-spam, se crede că depozitele de coduri au codul sursă al Yandex.
Scurgerea de informații a dezvăluit aproximativ 1.922 de factori de clasificare pe care motorul de căutare îi folosește în algoritmul său de căutare. Codul a fost dezvăluit sub forma unui torrent. Conform analizei postate de utilizatorul Twitter Alex Buraks, datele scurse includ numeroși factori de clasificare, inclusiv relevanța textului, PageRank, vârsta conținutului, prospețimea etc.
Probabil că ați auzit de Yandex, al patrulea motor de căutare ca mărime după cota de piață la nivel mondial. Ieri, codul sursă proprietar al Yandex a fost dezvăluit.
- Alex Buraks (@alex_buraks) 27 ianuarie 2023
Cea mai interesantă parte pentru comunitatea SEO este: lista tuturor celor 1922 factori de clasificare utilizați în algoritmul de căutare
[🧵THREAD] pic.twitter.com/6x82AAmbON
În plus, există mai mulți factori de comportament al utilizatorului final, factori legați de legături și fiabilitatea gazdei. SEO găsește unii factori de clasificare neobișnuiți, cum ar fi numărul de vizitatori unici, clasamentul mediu al domeniului pe interogări și procentul de trafic organic.
Se pare că cel puțin codul sursă pentru toate serviciile majore ale Yandex a fost dezvăluit:
- Motor de căutare și robot de indexare
- Hărți - Cum ar fi Google Maps și Street View
- Alice - asistent AI ca Siri / Alexa
- Taxi - Serviciu de taxi de tip Uber
- Direct - Serviciul de anunțuri, cum ar fi Google Ads / Adwords
- Mail - Serviciu de poștă electronică precum GMail
- Disk - Serviciu de stocare a fișierelor, cum ar fi Google Drive
- Piață - Piață ca Amazon
- Călătorii - Ca un Booking.com plus bilete de avion, tren și autobuz
- Yandex360 - Ca și Google Workspaces pentru servicii pe propriul domeniu
- Cloud - Probabil că nu tot codul de infrastructură a fost divulgat.
- Pay - Procesarea plăților ca Stripe, dar cu un set limitat de caracteristici
- Metrika - Ca și Google Analytics
- Și cel puțin partea de backend a majorității celorlalte servicii ale companiei este acolo. Cea mai mare arhivă numită "frontend" nu a fost încă explorată.
Shestakov a mai observat câteva chei API, care cel mai probabil au fost folosite pentru a testa implementarea.
Detalii despre această scurgere de informații: pot fi găsite aici:
https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/
Yandex neagă tentativa de hacking
Yandex susține că este la curent cu scurgerea de informații și că a inițiat deja o anchetă pentru a verifica modul în care "fragmente" de cod sursă au fost expuse publicului. Merită menționat faptul că scurgerea nu include date personale ale utilizatorilor sau angajaților.
Cu toate acestea, având în vedere importanța Yandex în infrastructura IT a Rusiei și scurgerile de date, se poate presupune că atacul a fost motivat de invazia țării în Ucraina. Așadar, ar putea fi implicați hackeri pro-Ucraina.
Platforma All-in-One pentru un SEO eficient
În spatele fiecărei afaceri de succes se află o campanie SEO puternică. Dar, având în vedere că există nenumărate instrumente și tehnici de optimizare din care puteți alege, poate fi greu să știți de unde să începeți. Ei bine, nu vă mai temeți, pentru că am exact ceea ce vă poate ajuta. Vă prezentăm platforma Ranktracker all-in-one pentru un SEO eficient
Am deschis în sfârșit înregistrarea la Ranktracker absolut gratuit!
Creați un cont gratuitSau Conectați-vă folosind acreditările dvs.
În declarația sa oficială, Yandex a precizat că firma nu a fost piratată și că un fost angajat ar putea fi implicat în scurgerea codului său sursă în domeniul public. Principala firmă IT din Rusia a precizat că arhiva scursă include fragmente de cod care fac parte dintr-un depozit intern, ale cărui date sunt diferite de cele utilizate în cea mai recentă versiune a depozitului.
"Yandex nu a fost piratat. Serviciul nostru de securitate a găsit fragmente de cod dintr-un depozit intern aflat în domeniul public, dar conținutul diferă de versiunea actuală a depozitului utilizat în serviciile Yandex", se arată în comunicatul companiei.
Cu toate acestea, scurgerile de cod sursă sunt periculoase pentru că pun probleme serioase de securitate pentru organizații, deoarece actorii amenințători pot observa proprietatea intelectuală și datele de sistem ale companiei. Scurgerea de cod sursă ar ajuta atacatorii să creeze exploatări de securitate specifice.
Teoretic, care este diferența dintre algoritmii utilizați în Google și în Yandex?
Sunt destul de asemănătoare:
- există un analog RankBrain- MatrixNet
- folosesc PageRank (aproape la fel ca în Google);
- o mulțime de algoritmi de text sunt la fel.
- Există o mulțime de foști Google în Yandex.
- Yanex a fost construit ca o clonă a Google;
- Specialiștii SEO din Rusia folosesc aproape aceleași tactici SEO white hat pentru Yandex și pentru Google.
Desigur, există o mulțime de diferențe, dar abordarea și majoritatea factorilor de clasificare par a fi similare.
În practică: comparând rezultatele căutărilor Google vs. Yandex, acestea se potrivesc în proporție de ~70%.
Conform Statcounter, Yandex este aproape de Yahoo și Bing în ceea ce privește cota de piață:
Fișierul cu factorii de clasificare: https://dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0
Structura pentru fiecare factor:
- nume
- link către wiki intern (restricționat)
- AntiSeoUpperBound (haha)
- descriere (este în limba rusă, am tradus-o pentru tine)
- etc.
1. Primul factor din listă - PageRank.
Principalele concluzii în urma analizei acestei liste: Vechimea linkurilor este un factor de clasificare.
2. Traficul și procentul de trafic organic sunt factori de clasificare.
Cumpărarea de PPC afectează clasamentele.
3. Numerele din URL-uri sunt dăunătoare pentru clasament
4. Prea multe slash-uri în URL-uri sunt dăunătoare pentru clasament
5. Pesimizare dură egală cu PR=0
6. Fiabilitatea gazdei este un factor de clasificare
Mai puține erori de 40x/50x aveți, cu atât mai bine pentru traficul dvs. organic
7. Există un factor de clasificare separat pentru ridicarea Wikipedia
8. O mulțime de factori de clasificare legați de comportamentul utilizatorilor - CTR, ultimul clic, timpul petrecut pe site, rata de respingere.
Notă: Suntem aproape siguri că în Yandex acești factori au un impact mult mai mare decât în Google.
9. Vechimea documentului și ultima actualizare sunt factori de clasificare
10. Poziția medie a domeniului în toate interogările este un factor de clasificare
11. Adâncimea de căutare este un factor de clasificare
Păstrați paginile importante mai aproape de pagina principală:
- pagini de top: 1 click de pe pagina principală
- pagini importante: <3 clicuri
12. În plus: factor de clasificare pentru paginile orfane
Puteți afla acest lucru prin intermediul instrumentului nostru de audit al site-ului web
13. Backlink-urile din paginile principale sunt mai importante decât cele din paginile interne
14. Numărul de interogări de căutare a site-ului/url dvs. este un factor de clasificare
Cu cât mai multe, cu atât mai bine
15. Traficul de pe Wikipedia este un factor de clasificare
16. Dacă url-ul dvs. ar fi ultimul pentru sesiunea de căutare (utilizatorul va găsi ceea ce are nevoie) - acest lucru ar avea un impact asupra clasamentului
Există factori stricți pentru acest lucru, dar și factori previzibili.
17. Factorul de clasificare Bookmarks
Cu cât mai mulți utilizatori adaugă la favorite o adresă URL, cu atât mai mult valoarea factorului are aceasta.
18. Factori speciali de clasificare pentru videoclipurile scurte (tiktok, scurtmetraje, role)
19. Hărți js-api pe pagină (de exemplu Google Maps) este un factor de clasificare
În Google (de exemplu, în nișa călătoriilor), adăugarea de hărți cu informații/funcționalități utile funcționează la fel de bine.
20. Cuvintele cheie din URL sunt factori de clasificare
După cum se poate vedea din descriere - optimul ar include până la 3 cuvinte din interogarea de căutare.
21. Utilizatorii care revin este un factor de clasificare
Construiți produse cu o bună retenție și veți beneficia de SEO (există o mulțime de factori de clasificare pentru a măsura acest lucru).
22. Procentul de litere majuscule în <title> este un factor de clasificare
23. Procentul de trafic direct este un factor de clasificare
Aka. Dacă tot traficul dvs. provine din căutarea organică - este suspect + rău pentru clasament.
24. Încă un factor de clasificare pentru calitatea conținutului - video încorporat rupt pe pagină
- Integrați videoclipuri - bun pentru clasament.
- Videoclipuri încorporate sparte - rău.
25. Conturile verificate pe rețelele de socializare se clasifică diferit față de alte urls
Important pentru căutările de brand - în mod ideal, dacă îți cauți brandul ar trebui să fie doar domeniile tale + rețelele sociale verificate în top 10.
26. Dacă ancorele backlink-urilor dvs. conțin toate cuvintele din cuvintele cheie - este bun pentru SEO
Dacă este într-un singur link - este mai benefic. Mai ales dacă ordinea cuvintelor este aceeași.
27. Raportul backlink "bun" vs. "rău" este un factor de ranking
![Raportul dintre backlink-urile "bune" și cele "rele" este un factor de clasificare](https://www.ranktracker.com/media/yandex-leaked-code-containing-search-ranking-factors-ranktracker-explains-all-ranking-factors/images/i84.png "Raportul dintre backlink-urile "bune" și cele "rele" este un factor de clasificare")
28. Rangul de calitate al textelor din domeniu este un factor de clasificare
Paginile cu conținut de calitate scăzută afectează întregul domeniu.
29. Cantitatea de reclame de pe o pagină este un factor de clasificare
30. Există hazardul ca factor de clasificare separat
Când nu înțelegeți de ce unele pagini sunt în top - ar putea fi doar aleatoriu (pentru a testa factorii de comportament).
31. JS din Google Analytics este un factor de clasificare
În mod previzibil. Site-urile web bune folosesc GA / Google Analytics mai des decât site-urile web proaste.
32. Backlink-urile din primele 100 cele mai bune site-uri web în funcție de PageRank au impact asupra clasamentului
33. URL-ul nu are cifre
❌ /100-best-credit-cards
✅ /best-credit-cards
34. Numărul de slash-uri din URL
❌ /finance/articole/2023/investment-advices
✅ /investment-advices
35. Numărul de non-lettre din URL
❌ /pet-toys&all$currency=dollar#mobile
✅ /pet-toys
36. Simbolul "?" din URL este un factor de clasificare
❌ /movies?genre=action
✅ /action-movies
37. Interogare de căutare = URL, inclusiv puncte și spații (??)
Căutarea este "Franklin D. Roosevelt":
❌ /roosevelt
✅ /Franklin_D._Roosevelt
38. Data veche din URL
❌ /2009/12/01/cum
se leagă o cravată
✅ /how-to-tie-a-tie
39. Cuvintele cheie se află în URL, nu în textul paginii
❌ /video-games & pagina este despre muzică
✅ /video-games & pagina este despre jocuri video
40. Acoperirea URL cu trigrame din interogarea de căutare
✅ /hotels-new-zealand
❌ /nz
❌ /cheap-hoteluri-in-new-zealand-best-deals
- Includeți 1-3 cuvinte importante în URL;
- Mai pu ține slash-uri/digitaluri/non litere, dacă nu fac parte din cuvântul cheie
41. Ponderile inițiale ale factorilor de clasificare Yandex
Ponderile finale sunt calculate de AI(matrixnet), dar sunt utile și valorile inițiale.
Concluzie
Ei bine, asta e tot ce avem de spus deocamdată. Suntem abia la început. Acest lucru vă oferă o imagine de ansamblu aproximativă a ceea ce se află acolo.
Suntem abia la început, cu atât mai multe informații valoroase în față.
Dar am avut dreptate în multe presupuneri și interpretări din exterior cu privire la modul în care ar funcționa un motor de căutare atât de extins, cel puțin în ceea ce privește legăturile.
În concluzie, scurgerea de cod Yandex oferă o perspectivă fascinantă asupra funcționării interne a unui motor de căutare modern.
Platforma All-in-One pentru un SEO eficient
În spatele fiecărei afaceri de succes se află o campanie SEO puternică. Dar, având în vedere că există nenumărate instrumente și tehnici de optimizare din care puteți alege, poate fi greu să știți de unde să începeți. Ei bine, nu vă mai temeți, pentru că am exact ceea ce vă poate ajuta. Vă prezentăm platforma Ranktracker all-in-one pentru un SEO eficient
Am deschis în sfârșit înregistrarea la Ranktracker absolut gratuit!
Creați un cont gratuitSau Conectați-vă folosind acreditările dvs.
Deși nu toate concluziile pot fi aplicate direct la Google, multe dintre ipotezele făcute în ultimii ani cu privire la funcționarea generală a marilor motoare de căutare pe internet sunt confirmate.
Presupun că industria SEO mai are în față câteva luni interesante cu noi informații din această scurgere de informații.
Fiți cu ochii pe această pagină, deoarece vom continua să adăugăm factori de clasificare în următoarele săptămâni și luni.
Credite speciale pentru https://twitter.com/alex_buraks