Introducere
Protocolul de excludere a roboților (Robots Exclusion Protocol - REP) este un fișier pentru webmaster care este utilizat pentru a da instrucțiuni roboților. Instrucțiunile ajută roboții să parcurgă paginile web și să le indexeze pentru diverse site-uri web. Acest REP este denumit uneori Robots.txt. Acestea sunt plasate la nivelul superior al directorului serverului web pentru a fi cât mai utile. De exemplu: https://www.123abc.com/robots.txt
Grupurile REP sunt utilizate ca un standard web care reglementează acțiunile roboților și comportamentul de indexare a motoarelor de căutare. Între 1994 și 1997, REP original a definit comportamentul bot pentru robots.txt. În 1996, motoarele de căutare suportau etichete REP X-robot suplimentare. Motoarele de căutare tratau linkurile a căror valoare conținea un "follow" folosind un microformat rel-no follow.
Robot Cheat Sheet
Pentru a bloca total crawlerele web
Agent utilizator: * Disallow: /
Pentru a bloca anumite crawlere web dintr-un dosar țintă
Agent utilizator: Googlebot Disallow: /no-google/
Pentru a bloca anumite crawlere web de pe o pagină web țintă
Agent utilizator: Googlebot Disallow: /no-google/blocked-page.html User-agent: * Disallow:
Sitemap: https://www.123abc.com/none-standard-location/sitemap.xml
Etichete de excludere specifice protocolului robotului
URI, etichetele REP se aplică anumitor sarcini de indexare și, în unele cazuri, motoarelor nosnippet, noarchive și noodpquery sau unei interogări de căutare. Resursele etichetate cu etichete de excludere, motoarele de căutare, cum ar fi listele SERP ale Bing, arată aceste linkuri externe ca fiind URL-uri interzise. Pe lângă directivele crawlerilor, motoare de căutare specifice vor interpreta diferit etichetele REP. Un exemplu în acest sens poate fi văzut în modul în care Bing va lista uneori trimiterile externe pe SERP-urile sale ca fiind interzise. Google preia aceleași listări și șterge referințele URL și ODP de pe SERP-urile sale. Ideea este că X-Robots ar anula directivele care intră în conflict cu elementele META.
Microformate
Factorii HTML specifici vor anula setările de pagină din directivele de indexare microformatate. Această metodă de programare necesită abilități și o foarte bună cunoaștere a serverelor web și a protocolului HTTP. Un exemplu al acestui protocol ar fi o pagină de etichete X-Robot cu un anumit element link care să spună follow apoi rel-nofollow. De obicei, indexatorii Robots.txt nu au directive, dar este posibil să setați indexatori de grup de URI-uri care au un server cu scripturi laterale la nivel de site.
Potrivirea modelelor
Webmasterii pot utiliza în continuare două expresii separate pentru a indica excluderea paginilor. Cele două caractere sunt asteriscul și semnul dolarului. Asteriscul denotă că poate reprezenta orice combinație de caractere. Semnul dolarului indică sfârșitul URL-ului.
Informații nerestricționate
Fișierele robot sunt întotdeauna publice, deci este important să știți că oricine poate vizualiza un fișier robot atașat la o pagină web. De asemenea, sunt accesibile informațiile de unde webmasterul blochează motoarele de pe server. Aceste fișiere publice lasă acces la datele private ale utilizatorilor care ar putea include date individuale private. Este posibil să se adauge protecție prin parolă pentru a împiedica vizitatorii și alte persoane să vizualizeze paginile clasificate care nu ar trebui să fie indexate.
Reguli suplimentare
- Parametrii meta-robot simpli, cum ar fi comanda index și follow, ar trebui să fie utilizați doar pentru a preveni indexarea și răscolirea paginilor.
- Roboții periculoși vor ignora cu siguranță aceste comenzi și, ca atare, reprezintă un plan de securitate inutil.
- Fiecare URL are dreptul la o singură linie "disallow".
- Sunt necesare fișiere robot separate pentru fiecare subdomeniu.
- Numele fișierelor pentru roboți sunt sensibile la majuscule și minuscule.
- Spațierea nu separ ă parametrii de căutare
Tactici SEO de top: Robot.txt
Blocarea paginilor - există mai multe modalități de a împiedica un motor de căutare să indexeze și să acceseze o pagină web sau un domeniu.
Utilizarea roboților pentru a bloca pagini
Această excludere îi spune motorului de căutare să nu cerceteze pagina, dar este posibil să o indexeze în continuare pentru a o afișa în listele SERP.
Nu există blocarea paginii de index
Această metodă de excludere indică motoarelor de căutare că au voie să viziteze pagina, dar nu au voie să afișeze URL-ul sau să salveze pagina pentru index. Aceasta este metoda de excludere preferată.
Nici un link următor pentru a bloca paginile
Aceasta nu este o tactică susținută. Motoarele de căutare pot accesa în continuare paginile cu această comandă. Chiar dacă motorul de căutare nu poate urmări direct pagina, acesta poate accesa conținutul folosind analizele browserului sau alte pagini legate.
Meta Robots vs. Robots.txt
Un exemplu de fișier robots.txt al unui site web poate ajuta la clarificarea procesului programului. În acest exemplu, fișierul robot blochează directorul. Atunci când se caută URL-ul respectiv în Google, acesta arată că 2760 de pagini au fost interzise în director. În exemplu, motorul nu a răscolit URL-urile, astfel încât acestea nu vor apărea ca niște listări tradiționale. Aceste pagini vor acumula link juice odată ce vor avea linkuri atașate la ele. Pe lângă puterea lor de clasare, vor începe să câștige popularitate și încredere prin apariția în căutări. Din moment ce paginile nu pot fi un beneficiu pentru site, deoarece nu sunt răscolite. Cel mai bun mod de a rezolva această problemă și de a nu avea puterea de clasificare irosită pe o pagină, este prudent să folosiți o altă metodă de excludere pentru a elimina paginile individuale. Codificarea ar apărea ca: meta tag această metodă ar prezenta o performanță mai bună decât metoda anterioară.