Qué es Robot.txt](https://ranktracker-blog.s3.amazonaws.com/2016/Apr/what_is_robot_txt-1461592898726.jpg)
Intro
El Protocolo de Exclusión de Robots (REP) es un archivo para webmasters que se utiliza para dar instrucciones a los robots. Las instrucciones ayudan a los robots a rastrear las páginas web e indexarlas para varios sitios web. Este REP se conoce a veces como Robots.txt. Se colocan en el nivel superior del directorio del servidor web para que sean más útiles. Por ejemplo: https://www.123abc.com/robots.txt
Los grupos REP se utilizan como un estándar web que regula las acciones de los bots y el comportamiento de indexación de los motores de búsqueda. Entre 1994 y 1997, la REP original definía el comportamiento de los bots en el archivo robots.txt. En 1996, los motores de búsqueda soportaron etiquetas REP X-robot adicionales. Los motores de búsqueda manejaban los enlaces cuyo valor contenía un "follow" utilizando un microformato rel-no follow.
Hoja de trucos para robots
Para bloquear totalmente los rastreadores web
Agente de usuario: *
Disallow: /
Para bloquear rastreadores web específicos de una carpeta de destino
Agente de usuario: Googlebot
Disallow: /no-google/
Para bloquear rastreadores web específicos de una página web de destino
Agente de usuario: Googlebot
Disallow: /no-google/blocked-page.html
Agente de usuario: *
Disallow:
Mapa del sitio: https://www.123abc.com/none-standard-location/sitemap.xml
Exclusión de etiquetas de protocolo específicas para robots
URI, las etiquetas REP se aplican a ciertas tareas del indexador, y en algunos casos a los motores nosnippet, noarchive y noodpquery o a una consulta de búsqueda. Los recursos etiquetados con etiquetas de exclusión, los motores de búsqueda como los listados SERP de Bing muestran estos enlaces externos como URLs prohibidas. Además de las directivas de rastreo, los motores de búsqueda específicos interpretarán las etiquetas REP de forma diferente. Un ejemplo de esto se puede ver en cómo Bing a veces lista referencias externas en sus SERPs como prohibidas. Google toma los mismos listados y borra las referencias URL y ODP en sus SERPs. La idea es que los X-Robots anulen las directivas que entran en conflicto con los elementos META.
Microformatos
Los factores HTML particulares anularán la configuración de la página en las directivas de índice microformateadas. Este método de programación requiere habilidades y un conocimiento muy agudo de los servidores web y del protocolo HTTP. Un ejemplo de este protocolo sería una página de etiquetas X-Robot con un elemento particular de enlace que diga follow y luego rel-nofollow. Los indexadores Robots.txt normalmente carecen de directivas, pero es posible establecer indexadores de grupo de URIs que tienen un servidor con scripts laterales en el nivel del sitio.
Pattern Matching
Los webmasters pueden seguir utilizando dos expresiones distintas para denotar la exclusión de páginas. Los dos caracteres son el asterisco y el signo de dólar. El asterisco denota que puede representar cualquier combinación de caracteres. El signo del dólar es para denotar el final de la URL.
Información no restringida
Los archivos robot son siempre públicos, por lo que es importante ser consciente de que cualquiera puede ver un archivo robot adjunto a una página web. También es información accesible desde donde el Webmaster bloquea los motores en el servidor. Estos archivos públicos dejan acceso a los datos privados de los usuarios que podrían incluir datos individuales privados. Es posible añadir una protección con contraseña para evitar que los visitantes y otras personas vean páginas clasificadas que no deben ser indexadas.
Reglas adicionales
- Los parámetros simples del meta robot como el índice y el comando follow sólo deben utilizarse para evitar la indexación y el rastreo de la página.
- Los bots peligrosos seguramente ignorarán estos comandos y como tal son un plan de seguridad inútil.
- Cada URL sólo puede tener una línea "disallow".
- Se requieren archivos robots separados en cada subdominio.
- Los nombres de los archivos de los robots distinguen entre mayúsculas y minúsculas.
- El espacio no separa los parámetros de búsqueda
Tácticas principales de SEO: Robot.txt
Bloqueo de páginas: hay varias formas de evitar que un motor de búsqueda indexe y acceda a una página web o a un dominio.
Usar los Robots para bloquear páginas
Esta exclusión le dice al motor de búsqueda que no rastree la página, pero aún puede indexarla para mostrarla en los listados SERP.
Bloqueo de páginas no indexadas
Este método de exclusión indica a los motores de búsqueda que pueden visitar la página, pero no pueden mostrar la URL o guardar la página para su índice. Este es el método de exclusión preferido.
No seguir el enlace para bloquear páginas
Esta no es una táctica admitida. Los motores de búsqueda pueden seguir accediendo a las páginas con este comando. Incluso si el motor de búsqueda no puede seguir directamente la página, puede acceder al contenido utilizando la analítica del navegador u otras páginas enlazadas.
Meta Robots vs. Robots.txt
Un ejemplo del archivo robots.txt de un sitio web puede ayudar a aclarar el proceso del programa. En el ejemplo, el archivo de robots está bloqueando el directorio. Cuando se busca la URL en cuestión en Google, se muestra que se han inhabilitado 2760 páginas del directorio. En el ejemplo, el motor no ha rastreado las URL, por lo que no aparecerán como listados tradicionales. Estas páginas acumularán link juice una vez que tengan enlaces vinculados a ellas. Además de su poder de clasificación, también empezarán a ganar popularidad y confianza al aparecer en las búsquedas. Ya que las páginas no pueden ser un beneficio para el sitio porque no están siendo rastreadas. La mejor manera de solucionar este problema y no haber desperdiciado el poder de clasificación de una página, es prudente utilizar otro método de exclusión para eliminar las páginas individuales. La codificación aparecería como: meta tag este método mostraría un mejor rendimiento que el método anterior.