Ce sunt codurile de stare HTTP

Introducere

Protocolul de excludere a roboților (Robots Exclusion Protocol - REP) este un fișier pentru webmaster care este utilizat pentru a da instrucțiuni roboților. Instrucțiunile ajută roboții să parcurgă paginile web și să le indexeze pentru diverse site-uri web. Acest REP este denumit uneori Robots.txt. Acestea sunt plasate la nivelul superior al directorului serverului web pentru a fi cât mai utile. De exemplu: https://www.123abc.com/robots.txt Grupurile REP sunt utilizate ca un standard web care reglementează acțiunile roboților și comportamentul de indexare a motoarelor de căutare. Între 1994 și 1997, REP original a definit comportamentul bot pentru robots.txt. În 1996, motoarele de căutare suportau etichete REP X-robot suplimentare. Motoarele de căutare tratau linkurile a căror valoare conținea un "follow" folosind un microformat rel-no follow.

Robot Cheat Sheet

Pentru a bloca total crawlerele web

Agent utilizator: * Disallow: /

Pentru a bloca anumite crawlere web dintr-un dosar țintă

Agent utilizator: Googlebot Disallow: /no-google/

Pentru a bloca anumite crawlere web de pe o pagină web țintă

Agent utilizator: Googlebot Disallow: /no-google/blocked-page.html User-agent: * Disallow:   
Sitemap: https://www.123abc.com/none-standard-location/sitemap.xml

Etichete de excludere specifice protocolului robotului

URI, etichetele REP se aplică anumitor sarcini de indexare și, în unele cazuri, motoarelor nosnippet, noarchive și noodpquery sau unei interogări de căutare. Resursele etichetate cu etichete de excludere, motoarele de căutare, cum ar fi listele SERP ale Bing, arată aceste linkuri externe ca fiind URL-uri interzise. Pe lângă directivele crawlerilor, motoare de căutare specifice vor interpreta diferit etichetele REP. Un exemplu în acest sens poate fi văzut în modul în care Bing va lista uneori trimiterile externe pe SERP-urile sale ca fiind interzise. Google preia aceleași listări și șterge referințele URL și ODP de pe SERP-urile sale. Ideea este că X-Robots ar anula directivele care intră în conflict cu elementele META.

Microformate

Factorii HTML specifici vor anula setările de pagină din directivele de indexare microformatate. Această metodă de programare necesită abilități și o foarte bună cunoaștere a serverelor web și a protocolului HTTP. Un exemplu al acestui protocol ar fi o pagină de etichete X-Robot cu un anumit element link care să spună follow apoi rel-nofollow. De obicei, indexatorii Robots.txt nu au directive, dar este posibil să setați indexatori de grup de URI-uri care au un server cu scripturi laterale la nivel de site.

Potrivirea modelelor

Webmasterii pot utiliza în continuare două expresii separate pentru a indica excluderea paginilor. Cele două caractere sunt asteriscul și semnul dolarului. Asteriscul denotă că poate reprezenta orice combinație de caractere. Semnul dolarului indică sfârșitul URL-ului.

Informații nerestricționate

Fișierele robot sunt întotdeauna publice, deci este important să știți că oricine poate vizualiza un fișier robot atașat la o pagină web. De asemenea, sunt accesibile informațiile de unde webmasterul blochează motoarele de pe server. Aceste fișiere publice lasă acces la datele private ale utilizatorilor care ar putea include date individuale private. Este posibil să se adauge protecție prin parolă pentru a împiedica vizitatorii și alte persoane să vizualizeze paginile clasificate care nu ar trebui să fie indexate.

Reguli suplimentare

Parametrii meta-robot simpli, cum ar fi comanda index și follow, ar trebui să fie utilizați doar pentru a preveni indexarea și răscolirea paginilor.
Roboții periculoși vor ignora cu siguranță aceste comenzi și, ca atare, reprezintă un plan de securitate inutil.
Fiecare URL are dreptul la o singură linie "disallow".
Sunt necesare fișiere robot separate pentru fiecare subdomeniu.
Numele fișierelor pentru roboți sunt sensibile la majuscule și minuscule.
Spațierea nu separă parametrii de căutare

Tactici SEO de top: Robot.txt

Blocarea paginilor - există mai multe modalități de a împiedica un motor de căutare să indexeze și să acceseze o pagină web sau un domeniu.

Utilizarea roboților pentru a bloca pagini

Această excludere îi spune motorului de căutare să nu cerceteze pagina, dar este posibil să o indexeze în continuare pentru a o afișa în listele SERP.

Nu există blocarea paginii de index

Această metodă de excludere indică motoarelor de căutare că au voie să viziteze pagina, dar nu au voie să afișeze URL-ul sau să salveze pagina pentru index. Aceasta este metoda de excludere preferată.

Nici un link următor pentru a bloca paginile

Aceasta nu este o tactică susținută. Motoarele de căutare pot accesa în continuare paginile cu această comandă. Chiar dacă motorul de căutare nu poate urmări direct pagina, acesta poate accesa conținutul folosind analizele browserului sau alte pagini legate.

Meta Robots vs. Robots.txt

Un exemplu de fișier robots.txt al unui site web poate ajuta la clarificarea procesului programului. În acest exemplu, fișierul robot blochează directorul. Atunci când se caută URL-ul respectiv în Google, acesta arată că 2760 de pagini au fost interzise în director. În exemplu, motorul nu a răscolit URL-urile, astfel încât acestea nu vor apărea ca niște listări tradiționale. Aceste pagini vor acumula link juice odată ce vor avea linkuri atașate la ele. Pe lângă puterea lor de clasare, vor începe să câștige popularitate și încredere prin apariția în căutări. Din moment ce paginile nu pot fi un beneficiu pentru site, deoarece nu sunt răscolite. Cel mai bun mod de a rezolva această problemă și de a nu avea puterea de clasificare irosită pe o pagină, este prudent să folosiți o altă metodă de excludere pentru a elimina paginile individuale. Codificarea ar apărea ca: meta tag această metodă ar prezenta o performanță mai bună decât metoda anterioară.

Ce sunt codurile de stare HTTP

Introducere

Robot Cheat Sheet

Pentru a bloca total crawlerele web

Pentru a bloca anumite crawlere web dintr-un dosar țintă

Pentru a bloca anumite crawlere web de pe o pagină web țintă

Etichete de excludere specifice protocolului robotului

Microformate

Potrivirea modelelor

Informații nerestricționate

Reguli suplimentare

Tactici SEO de top: Robot.txt

Utilizarea roboților pentru a bloca pagini

Nu există blocarea paginii de index

Nici un link următor pentru a bloca paginile

Meta Robots vs. Robots.txt

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Ce sunt codurile de stare HTTP

Introducere

Robot Cheat Sheet

Pentru a bloca total crawlerele web

Pentru a bloca anumite crawlere web dintr-un dosar țintă

Pentru a bloca anumite crawlere web de pe o pagină web țintă

Etichete de excludere specifice protocolului robotului

Microformate

Potrivirea modelelor

Informații nerestricționate

Reguli suplimentare

Tactici SEO de top: Robot.txt

Utilizarea roboților pentru a bloca pagini

Nu există blocarea paginii de index

Nici un link următor pentru a bloca paginile

Meta Robots vs. Robots.txt

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Începeți să utilizați Ranktracker... Gratuit!