Raro es el día en que no usemos Google para buscar algún tipo de información. El buscador más famoso del mundo nos ofrece todo tipo de soluciones para nuestras vidas ya que es una de las marcas más fáciles de usar para los ciudadanos. Sin embargo, los buscadores necesitan información, son curiosos por naturaleza y quieren conocer absolutamente todo de nuestras vidas y páginas web. En definitiva, son codiciosos por obtener conocimiento e información, de ahí la importancia de conocer el uso y funcionamiento un robots.txt.
Los buscadores cuentan con unas máquinas o robots que rastrean la web para clasificar e indexar la mayor cantidad de información posible a sus bases de datos. Los robots.txt son una clase de máquina muy usada en la red para indexar el contenido web. Los spammers, por ejemplo, los usan para rastrear direcciones electrónicas. Pero ojo, también tienen muchos más usos como la localización de sitios en XML o bloquear el acceso a archivos de código y directorios
El mundo de los robots.txt es apasionante y hoy vamos a intentar poner un poco de luz sobre el tema, por ello, vamos a contar cómo es el funcionamiento del archivo robots.txt, qué necesitas saber y cómo debes manejarte con ellos.
Qué es el archivo robots.txt
Cuando creamos un sitio web nuevo necesitamos que Google pueda acceder a nuestra página para rastrar nuestra información. Para realizar esta tarea es necesario la creación de un archivo de texto (con extensión.txt) en nuestro dominio para proveer al buscador de toda la información que nos interesa que sepa sobre nuestra página web o negocio. Al mismo tiempo este archivo .txt es usado para impedir que los bots o robots.txt agreguen datos e información que no deseamos compartir con la compañía de Moutain View. Según Google, la definición de un archivo.txt es la siguiente:
«Un archivo
robots.txt
es un archivo que se encuentra en la raíz de un sitio e indica a qué partes no quieres que accedan los rastreadores de los motores de búsqueda. El archivo utiliza el Estándar de exclusión de robots, que es un protocolo con un pequeño conjunto de comandos que se puede utilizar para indicar el acceso al sitio web por sección y por tipos específicos de rastreadores web (como los rastreadores móviles o los rastreadores de ordenador)».
Cómo funciona el archivo robots.txt
El funcionamiento de un robots.txt es más sencillo de lo que parece. Lo primero que debemos saber es para qué sirve el archivo robots.txt y que elementos de nuestra web es capaz de indexar o no.
Además, el funcionamiento de los robots.txt está limitado y hay otros sistemas para que nuestras direcciones web sean encontradas en la web.
Sitemap del funcionamiento de un robots.txt y su archivo en una página web.
Ten en cuenta que las instrucciones del robots.txt son meras indicaciones y no es algo definitivo. Por ejemplo, los robots de Google llamados Googlebots sí obedecen las órdenes del archivo robots.txt, pero otros buscadores (Yandex, Alltheweb, ASK o Altavista) no tienen porque hacerlo.
Por ejemplo, Google no rastreará ni indexará ningún tipo de información del contenido de las páginas que bloqueemos con el robots.txt, sin embargo, sí indexará todas las direcciones o URL que estén en otros elementos o páginas web incluso aunque estas mismas estén restringidas dentro del archivo.txt, por tanto, un consejo importante es que si tu página web va a tener información sensible pero no quieres compartirla, lo mejor es no crearla.
Dos tipos de robots: user-agents y robots
Google diferencia varias clases de robots:
- Los user-agents que utiliza de forma específica para buscar y para dar instrucciones. Para poder usar este robot se debe añadir el siguiente comando: User-agent: *
- El resto de robots son Googlebots: el Googlebot-Mobile (específico para dispositivos móviles) y el Googlebot-Image que es para imágenes y fotografía.
El comando Disallow
Si queremos limitar la indexación de archivos para este tipo de robots debemos usar el comando «Disallow». Por ejemplo, si queremos quitar algún contenido de nuestra página web pondremos lo siguiente:
- En el caso de bloquear todo el sitio pondremos una barra inclinada, así: Disallow: /
- Si queremos bloquear un directorio y todo lo que está dentro pondremos lo siguiente: Disallow: /https://marketing4ecommerce.net/marketing/
- Para bloquear una página entera se pone después de Disallow así: Disallow: /https://marketing4ecommerce.net/marketing/
Con respecto a las imágenes se eliminan de la siguiente forma:
- Si solo quieres eliminar una imagen: User-agent: Googlebot-Image
Disallow: /imágenes/marketing y comercio electrónico.jpg - Si quieres erradicar todas las imágenes de Google Imágenes, incluye los siguientes comandos:
- User-agent: Googlebot-Image
Disallow: /
- User-agent: Googlebot-Image
- Para bloquear archivos de un determinado tipo (por ejemplo, .gif) puedes incluir el siguiente comando:
- User-agent: Googlebot
Disallow: /*.gif$
- User-agent: Googlebot
Otros comandos que también se utilizan bastante
- Sitemap – Indicar dónde está el mapa del sitio en XML.
- Allow – Funciona al revés que el comando Disallow ya que permite el acceso a directorios y páginas. También se puede usar de forma parcial o total para sobrescribir el comando Disallow.
- Crawl-delay – Este comando le da instrucciones al robot acerca del número de segundos para cargar entre cada página. De hecho, es bastante común su uso en temas de SEO para mejorar la velocidad de carga del servidor.
Cómo se crea el archivo robots.txt
Antes os comentábamos que el funcionamiento del archivo robots.txt es muy fácil. Por ejemplo, para su creación es necesario darle acceso a la raíz del dominio y subir al archivo en formato texto (txt) con nombre «robots.txt» al directorio raíz de primer nivel de nuestro servidor donde esté ubicado la página web que queremos indexar.
No olvides usar para la creación del archivo un archivo de texto, en Windows y Mac existen archivos de texto plano que nos pueden servir. Un ejemplo sería el siguiente: http://marketing4ecommerce/robots.txt
Por último, debes comprobar el funcionamiento de tu robots.txt, para ello, Google nos da una herramienta de prueba en Google Search Console. Ahí puedes comprobar como Googlebot leerá el archivo y te informará de los posibles errores que pueda tener.
En caso de que necesites más información sobre el tema, te recomiendo que acudas a la página de soporte de Google donde te informan de todo lo que necesitas saber sobre el funcionamiento de un robots.txt. ¿Y a ti qué te parece restringir información de tu página web a Google? ¿De verdad crees que es un sistema efectivo? Déjanos tu opinión en los comentarios y estaremos encantados de responderte.
Mantente informado de las noticias más relevantes en nuestro canal de Telegram