Какво е Robots.txt?
Файлът robots.txt ограничава достъпа на уеб обхождащи програми, като например ботове на търсачки, до определени URL адреси в даден уебсайт. Той може да се използва и за регулиране на скоростта на обхождане за някои уеб браузъри.
Всички "добри" уеб обхождащи програми спазват правилата, посочени във файла robots.txt. Съществуват обаче "лоши" нерегистрирани обхождащи програми, които често се използват за целите на скрапирането и които напълно пренебрегват файла robots.txt.
Файлът robots.txt трябва да се използва за намаляване/оптимизиране на трафика на обхождащите устройства към уебсайта и не трябва да се използва за контролиране на индексирането на уеб страници. Дори ако даден URL адрес е забранен в robots.txt, той все пак може да бъде индексиран от Google, ако бъде открит чрез външна връзка.
Синтаксис на файла Robots.txt
Синтаксисът на файла robots.txt съдържа следните полета:
- user-agent: обхождащата машина, за която се отнасят правилата
- disallow: път, който не трябва да се обхожда
- allow: път, който може да бъде обхождан (по избор)
- sitemap: местоположение на файла с картата на сайта (по избор)
- crawl-delay: контролира скоростта на обхождане (по избор и не се поддържа от GoogleBot)
Ето един пример:
Агент на потребителя: RanktrackerSiteAudit Disallow: /resources/ Позволява: /resources/images/ Crawl-delay: 2 Карта на сайта: https://example.com/sitemap.xml
Този файл robots.txt указва на обхождащата програма RanktrackerSiteAudit да не обхожда URL адресите в директорията "/resources/", с изключение на тези в "/resources/images/", и задава закъснение между заявките от 2 секунди.
Защо е важен файлът Robots.txt?
Файлът robots.txt е важен, тъй като позволява на уебмастърите да контролират поведението на обхождащите програми на своите уебсайтове, като оптимизират бюджета за обхождане и ограничават обхождането на секции от уебсайта, които не са предназначени за публичен достъп.
Много собственици на уебсайтове избират да не индексират определени страници, като например страници на автори, страници за вход или страници в рамките на сайт за членство. Те могат също така да блокират обхождането и индексирането на затворе ни ресурси като PDF файлове или видеоклипове, за достъп до които се изисква съгласие чрез имейл.
Струва си да се отбележи, че ако използвате CMS като WordPress, страницата за вход /wp-admin/
е автоматично блокирана за индексиране от обхождащите устройства.
Важно е обаче да се отбележи, че Google не препоръчва да се разчита само на файла robots.txt за контрол на индексирането на страници. И ако правите промени в дадена страница, като например добавяте таг "noindex", уверете се, че страницата не е забранена в robots.txt. В противен случай Googlebot няма да може да я прочете и да актуализира индекса си своевременно.
Често задавани въпроси
Какво се случва, ако нямам файл robots.txt?
Повечето сайтове не изискват задължително наличието на файл robots.txt. Целта на файла robots.txt е да съобщи конкретни инструкции на ботовете за търсене, но това може да не е необходимо, ако имате по-малък уебсайт или такъв без много страници, които трябва да блокирате от търсачките.
При това положение няма нищо лошо в това да създадете файл robots.txt и да го разположите на сайта си. Това ще улесни добавянето на директиви, ако се наложи да го направите в бъдеще.
Мога ли да скрия дадена страница от търсачките с помощта на robots.txt?
Да. Скриването на страници от търсачките е една от основните функции на файла robots.txt. Можете да направите това с параметъра disallow и URL адреса, който искате да блокирате.
Важно е обаче да се отбележи, че простото скриване на даден URL адрес от Googlebot с помощта на файла robots.txt не гарантира, че той няма да бъде индексиран. В някои случаи URL адресът все пак може да бъде индексиран въз основа на фактори като текста на самия URL адрес, анкерния текст, използван във външните връзки, и контекста на външната страница, в която е открит URL адресът.
Как да тествам моя файл robots.txt?
Можете да валидирате файла robots.txt и да проверите как работят инструкциите за конкретни URL адреси с помощта на тестера на robots.txt в Google Search Console или с помощта на външни валидатори, като този на Merkle.