Como forzar a Google a leer mi fichero robots.txt

En el siguiente artículo mostramos como forzar a Google a leer el fichero robots.txt de una página web de manera inmediata.

Al desarrollar una nueva página web es buena práctica configurar el fichero robots.txt para que no indexe el sitio web hasta que no esté preparado con contenido real.

El fichero robots.txt es un fichero de texto ubicado en la raíz de nuestra página web, que contiene una serie de directivas que los robots de los buscadores deberían de leer para saber que partes se pueden indexar dentro de un sitio web.

Así por ejemplo si tenemos un directorio que no queremos que Google indexe, pues añadimos la directiva:

Disallow: /nombre-directorio/

En la fase de desarrollo, para que Google no indexe ninguna parte de nuestro sitio web, añadimos la directiva:

Disallow: *

En un entorno de desarrollo estas acciones se realizan para que Google no indexe contenido de prueba o temporal en el buscador, puesto que estamos desarrollando el sitio web y aún no existe contenido real.

Ahora bien, una vez ya tenemos la página preparada con el contenido real y queremos que Google la indexe, tenemos que quitar la directiva antes indicada y refrescar el fichero robots.txt.

El problema surge cuando nos damos cuenta que Google actualiza el fichero robots.txt cada x días (normalmente entre 3 días y 1 semana), y en cambio queremos que Google nos comience a indexar de inmediato.

En Google Webmaster Tools, la aplicación de Google donde tiene que estar dada de alta su página web para controlar ciertos puntos de interacción de un sitio web con Google, existe la opción de probar el fichero robots.txt que tiene Google en su sistema y cuando lo ha descargado por última vez, así puede ver si el fichero robots que tiene en su poder Google está actualizado con sus últimos cambios.

Puede ver esta opción del probador de robots.txt en la página: www.google.com/webmasters/tools/robots-testing-tool

En el supuesto que Google no tenga los últimos cambios realizados y necesite forzar a Google a leer el fichero robots.txt actualizado, tiene que ir a la opción de Explorar como Google en la página: www.google.com/webmasters/tools/googlebot-fetch

Imagen de pantalla en Webmaster Tools de Explorar como Google

Dentro de esta página se tiene que incluir “robots.txt” dentro del cuadro de texto y pulsar en el botón “Obtener y Procesar”.

Esta opción realizará una descarga del fichero robots.txt actualizado y los servidores de Google refrescarán el fichero con la última versión de inmediato, con ello conseguiremos que Google comience a rastrear nuestro sitio web y lo sitúe en su índice.

¡Compartir ahora!