Qué es el archivo «robots.txt» y por qué es importante

Herramienta robot.txt de Bing

Al trabajar el posicionamiento SEO de una página web, lo más habitual es prestar mucha atención a los factores de SEO OnPage como el perfil de enlaces, la optimización de las imágenes o la búsqueda de palabra clave. Sin embargo, hay otra parte del SEO que se suele dejar de lado, como son los sitemaps, o incluso los archivos robots.txt, y no se debería. Te vamos a explicar por qué.

El archivo robots.txt indica a los robots de los buscadores y algoritmos a qué páginas pueden acceder y cuáles no se deben indexar

Los robots.txt son una parte importante del SEO, ya que son los encargados de abrir o cerrar las puertas a los robots de los diferentes motores de búsqueda. Estos archivos se emplean para mejorar la navegación de las arañas y de los algoritmos de búsqueda, orientándolos hacia las páginas que deben ser indexadas y «bloqueando» su acceso a las que no se desean indexar.

El archivo robots.txt, como su propio nombre indica, es un archivo de tipo TXT, que se puede crear con el Bloc de Notas de Windows o Linux, y utiliza un formato estándar de Protocolo de Exclusión de Robots, un conjunto de ordenes (a través de comandos) que los robots y algoritmos utilizan para saber si deben acceder o no a una página de un sitio web. Este archivo, una vez creado, debe ser almacenado en la carpeta raíz del sitio web.

Dado que este archivo está guardado en la carpeta raíz, es muy sencillo acceder al archivo robots.txt de cualquier sitio web con solo escribir la dirección de la página web y agregar al final el comando: «/robots.txt». Esta es una forma excelente de aprender cómo son las estructuras de estos archivos y tomar ideas de las páginas mejor posicionadas para crear archivos robots.txt propios.

Los principales comandos del robots.txt

Estos son los principales comandos que se pueden añadir al archivo robots.txt

-User-Agent: Este comando sirve para dar instrucciones concretas a cada robot de búsqueda. Puedes consultar el nombre de cada robot en la Base de Datos de Web Robots. Por ejemplo, el de nombre de Google es «Googlebot». Para dar órdenes a Google, el comando sería: «User-agent:Googlebot». Y, si se quiere ingresar una orden general para todos los bots, el comando sería: «User-agent:*».

-Allow: Allow determina las páginas que se indexarán. Aunque todas las páginas de un sitio web se indexan de forma automática (a menos que se indique lo contrario), el comando Allow indica que se debe indexar una página dentro de una carpeta que no se indexa. Por ejemplo:

«Disallow:/Biblioteca/»

«Allow:/Biblioteca/libros de terror/»

-Disallow: Este comando se utiliza para designar las páginas del sitio web que no deben incluirse en los resultados de búsqueda. Por ejemplo, para limitar el acceso de los robots a la página «Biblioteca» de un sitio web, el comando correcto sería: «Disallow:/biblioteca/».

-Sitemap: El comando de sitemap se utiliza para señalar a los robots dónde se encuentran los sitemaps de un sitio web. Este comando ha caído en desuso debido al uso de Google Search Console y su herramienta para subir los sitemaps directamente.

¿Para qué sirve el archivo robots.txt?

El archivo robots.txt puede tener dos funciones principales:

-Bloquear motores de búsqueda: El uso más común de robots.txt es el de bloquear el acceso de algunos buscadores a la página web. Esto puede ser útil para ahorrar espacio y que el servidor no se vea abrumado por las búsquedas.

-«Esconder» imágenes y otros elementos a los buscadores: Las páginas que crean imágenes propias como infografías o que publican fotografías propias y quieren protegerlas de los buscadores, para que no aparezcan en Google Images, pueden bloquear el acceso de Google a ellas. Esto aplicaría también a otros elementos que no se quiera que Google rastree.

Jaume Vicent

Redactor y especialista en SEO y marketing de contenidos. Friki de las redes sociales y de las nuevas tecnologías.

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

    • TreceBits te informa que los datos de carácter personal que nos proporciones rellenando el presente formulario serán tratados por Manuel Moreno Molina (TreceBits) como responsable de esta web.
    • La finalidad de la recogida y tratamiento de los datos personales que te solicitamos es para gestionar la solicitud que realizas en este formulario de contacto.
    • Legitimación: Consentimiento del interesado.
    • Como usuario e interesado te informamos que los datos que nos facilitas estarán ubicados en los servidores de SiteGround Spain S.L. (proveedor de hosting de TreceBits). SiteGround Spain S.L. está ubicado en la UE, cuyo nivel de protección son adecuados según Comisión de la UE. Ver política de privacidad de SiteGround Spain S.L.
    • Podrás ejercer tus derechos de acceso, rectificación, limitación y suprimir los datos en info@trecebits.com así como el derecho a presentar una reclamación ante una autoridad de control.
    • Puedes consultar la información adicional y detallada sobre Protección de Datos en nuestra política de privacidad.