Entendiendo el archivo robots.txt de mi página web

No, robots.txt no es nada salido de Will Smith con “Yo, Robot” ni tiene que ver con Isaac Assimov. Estoy hablando de posicionar tu página web en Google.

Cuando hablamos de SEO, la mayoría de las personas tienen un entendimiento de lo básico. Saben de palabras clave y como deben de aparecer en su contenido. Tal vez hasta han jugado con algún plugin de SEO en WordPress.

Pero cuando ves el SEO más a profundidad, hay algunas piezas obscuras del rompecabezas que no muchos conocen, una de ellas es el archivo robots.txt

¿Qué son los archivos robots.txt y para que se usan?

Un archivo robots.txt es un archivo de texto que existe en tu servidor. Contiene reglas para indexar tu páginas web y es la herramienta para que te comuniques directamente con los motores de búsqueda.

Básicamente, el archivo dice que partes de tu sitio Google tiene permitido indexar y que partes debe de omitir.

Sin embargo:

¿Porqué le dirías a Google que no indexe algo en tu sitio?
¿No es eso algo malo desde la perspectiva del SEO?

De hecho, hay muchas razones por las cuales podrías decirle a Google que no indexe algo en tu sitio.

Uno de los usos más comunes del archivo robots.txt es excluir de Google una página web que todavía este en desarrollo.

Lo mismo es útil para versiones de prueba, donde haces cambios antes de subirlos al sitio que ven los clientes.

O, talvez tienes algunos archivos en tu servidor que no quieres que aparezcan en el internet porque son solo para tus usuarios.

¿Es absolutamente necesario tener un robots.txt?

¿Definitivamente necesitas un archivo robots.txt? No, tu página en WordPress será indexada por los motores de búsqueda aunque ese archivo no este presente.

De hecho, WordPress ya tiene un archivo robots.txt virtual. Dicho eso, te recomiendo que crees una copia del archivo en tu servidor. Te hará las cosas más fáciles.

Sin embargo, una de las cosas de las de las que debes de estar atento es que la obediencia a los archivos robots.txt no puede ser forzada. El archivo será reconocido y respetado por la mayoría de los motores de búsqueda, pero sitios maliciosos y de baja calidad no le harán caso.

¿Cómo hago un archivo robots.txt y donde lo guardo?

Hacer tu propio archivo robots.txt es tan fácil como crear un archivo de texto con tu editor favorito y llamarlo robots.txt. Simplemente guárdalo y listo. De verdad, así de fácil es.

Bueno, hay un segundo paso involucrado: subirlo a tu servidor usando FTP. Este archivo se coloca en la carpeta raiz, incluso cuando has movido a WordPress a su propio directorio. Una buena regla es ponerla en el mismo lugar que tu archivo index.php, espera a que se termine de subir y listo.

Cuidado, necesitarás varios archivos robots.txt para cada subdominio de tu sitio y para diferentes protocolos como HTTPS.

Como creo reglas en robots.txt

Ahora pasemos a hablar del contenido del archivo robots.txt

Este archivo tiene su propio sintaxis de reglas definidas. Estas reglas también son llamadas “directivas”. A continuación veremos como puedes usarlas para decirles a los motores de búsqueda que pueden y no pueden hacer en tu sitio.

robots.txt básico

Si te asusté con la palabra “sintaxis”, no te preocupes, no tienes que aprender un nuevo lenguaje de programación. Las directivas son sencillas. De hecho, conociendo sólo dos es suficiente para la mayoría:

User-Agent Define el motor de búsqueda
Disallow Le dice al motor que no indexe archivos, páginas o directorios definidos

Si no vas a definir diferentes reglas para diferentes motores de búsqueda, un asterisco ( * ) puede ser usado para definir directivas universales para todos. Por ejemplo, para bloquear a todos de todo tu sitio web, tienes que configurar el robots.txt de la siguiente manera:

User-agent: *
Disallow: /

Esto dice básicamente que todos los directorios están fuera del alcance de todos los motores de búsqueda.

Es importante señalar que este archivo usa rutas relativas (y no absolutas). Debido a que robots.txt existe en tu directorio raíz, la diagonal indica que este lugar y todo lo que contienen no está permitido (están Disallow). Para definir carpetas especiales, como tu carpeta de medios, como fuera de límites, necesitas escribir algo como /wp-content/uploads. También toma en cuenta de que las mayúsculas y minúsculas son importantes.

Si tiene sentido para ti, también puedes permitir y prohibir algunas partes de tu sitio para ciertos robots. Por ejemplo, el siguiente código en tu robots.txt solo le dará acceso a Google a tu sitio mientras mantiene a todos los demás afuera:

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

Ten cuidado, las reglas para robots específicos deben de ser definidas al principio del archivo robots.txt. Después puedes usar User-agent: * para establecer directivas a todos los robots que no tengan reglas específicas.

Algunos robots de motores de búsqueda importantes:

Googlebot – Google
Googlebot-Image – Imágenes Google
Googlebot-News – Noticias de Google
Bingbot – Bing
Yahoo! Slurp – Yahoo (gran selección de nombre eh, Yahoo!)

Puedes encontrar más aquí:

Otra vez, recuerda que Google, Yahoo, Bing y similares normalmente respetaran las directivas en tu archivo, pero no todos los robots lo harán.

Otras reglas de robots.txt

Disallow y User-agent no son todas las reglas disponibles. Aquí hay algunas otras:

Allow – Permite explícitamente que un robot indexe cierto contenido
Sitemap – Le dice a los robots donde encontrar tu sitemap
Host – Define tu dominio preferido en un sitio que tiene varios
Crawl-delay – Indica el intervalo de tiempo que los robots deben de esperar para visitar tu sitio

Hablemos primero de allow . Un error común es que esta regla es usada para decirle a los motores de búsqueda que visiten tu sitio por lo que es importante para el SEO. Debido a esto encontrarás lo siguiente en algunos archivos robots.txt:

User-agent: *
Allow: /

Esta directiva es redundante. ¿Por qué? Debido a que los motores de búsqueda consideran que indexar todo lo que no está específicamente prohibido en tu sitio es justo. Decirles que permites que todo tu sitio puede ser indexado no cambiará muchas cosas.

En vez de eso allow es usada para contradict a disallow. Esto es útil en caso de que quieras bloquear todo un directorio pero darle acceso a los motores de búsqueda a uno o más archivos específicos adentro de ese directorio, para lo cual usarías algo así:

User-agent: *
Allow: /mi-directorio/mi-archivo.php
Disallow: /mi-directorio/

Los motores de búsqueda se mantendrás lejos de mi-directorio en general, pero tendrán acceso a mi-archivo.php. Sin embargo, es importante que sepas que debes de colocar el allow primero para que esto funcione.

Algunos motores de búsqueda tiene soporte para la directiva Sitemap. La puedes usar para decirles donde encontrar tu sitemap y se verá a algo así:

Sitemap: http://misitio.com/sitemap_index.xml
Sitemap: http://misitio.com/post-sitemap.xml
Sitemap: http://misitio.com/page-sitemap.xml
Sitemap: http://misitio.com/category-sitemap.xml
Sitemap: http://misitio.com/post_tag-sitemap.xml

La directiva puede estar en cualquier parte del archivo robots.txt, pero generalmente se coloca al principio o al final del mismo. Sin embargo, su utilidad se discute mucho. Por ejemplo, Yoast opina lo siguiente:

Siempre he pensado que vincular tu sitemap XML desde tu archivo robots.txt no tiene sentido. Debes de añadirlo manualmente a tu cuenta de webmaster de Google y Bing y ver la retroalimentación que tienen sobre el mismo” – Joost de Valk

Por lo tanto, queda en ti si lo añades a tu archivo o no.

Host y Crawl-delay son dos directivas que personalmente jamás he usado. La primera le dice al motor de búsqueda cual es tu dominio favorito en caso de que tengas varios en tu página. La segunda le dice el número de segundos que los robots deben de estar entre cada visita.

Debido a que ambas no son comunes, no ahondaremos mucho en ellas, pero las quería incluir para que tengas la información completa.

Cosas avanzadas

Excelente. Sigues aquí. Bien hecho. Ahora pasemos a cosas más divertidas.

Ya sabemos que puedes usar asteriscos para definer más de un User-agent. Sin embargo, tomb´n sirve para otras directivas.

Por ejemplo, si quieres bloquear todos las carpetas que comiencen con wp-:

User-agent: *
Disallow: /wp-*/

¿Tiene sentido, no? Lo mismo funciona para archivos. Por ejemplo, si mi objetivo es excluir todos los archivos PDF dentro de la carpeta de medios de los SERPs, usaría este código:

User-agent: *
Disallow: /wp-content/uploads/*/*/*.pdf

Fíjate que cambiamos las carpetas de mes y día que WordPress hace automáticamente con asteriscos para que todos los archivos PDF sean excluidos, sin importar cuando se subieron.

Aunque esta técnica es útil para la mayoría de los casos, algunas veces es necesario definir usando el final en vez del principio. Ahí es cuando el signo de pesos es útil:

User-agent: *
Disallow: /pagina.php$

La regla anterior asegura que sólo pagina.php sea bloqueada y no pagina.php?id=12. El signo de pesos le dice al motor de búsqueda que pagina.php es el final de la cadena de caracteres.

Bien…!¿Y ahora que pongo en mi archivo robots.txt?!

Ok, veo que eres algo impaciente. ¿Dónde está el código? ¿No hay algunas directivas ya optimizadas que puedo publicar aquí para que solo copies y pegues?

Aunque quiero, la respuesta lamentablemente es no.

¿Por qué? Bueno, una de las razones es que el contenido de tu robots.txt realmente depende de tu sitio. Tal vez tengas algunas cosas que no quieras que sean indexadas por los motores de búsqueda mientras a otros tal vez no les importe.

Además, y lo que es más importante, es que no hay un ningún acuerdo sobre un estándar de mejores prácticas y maneras optimas de tener tu robots.txt para términos de SEO. Todo el tema es un debate

¿Qué están haciendo los expertos con sus robots.txt?

Por ejemplo, los chavos de Yoast solo tienen esto en su robots.txt:

User-agent: *
Disallow: /out/

Como puedes ver, lo único que están marcando como prohibido es la carpeta “out”, que tiene sus links de afiliación. Todo lo demás está bien. La razón es:

Google ya no es el pequeño niño que solo rastrea el HTML del sitio e ignora los estilos y el javascript. Rastrea todo y hace un completo render de tus páginas. Esto significa que cuando le niegas a Google el acceso a tu archivos CSS o javascript, no le gusta para nada. – Yoast

Ahora Google ve tu sitio como un todo. Si bloqueas los componentes de estilo, pensará que tu sitio se ve muy mal y te penalizará con efectos devastadores.

Para revisar como ve Google tu página, utiliza “Explorar como Google” y después “Obtener y procesar” en la sección Rastreo en Google Webmaster Tools. Si tu archivo robots.txt es demasiado restrictivo, tu página probablemente no se vea como quieras y necesitas hacer algunos ajustes.

Yoast también recomienda no usar las directivas en robots.txt para ocultar contenido de baja calidad como las categorías y etiquetas, en vez de eso usa etiquetas noindex, follow. También date cuenta que no hay referencia al sitemap en su archivo por la razón mencioada arriba.

El fundador de WordPress Matt Mullenweg tiene lo siguiente en su robots.txt, muy parecido a lo que tiene Yoast:

User-agent: *
Disallow:

User-agent: Mediapartners-Google*
Disallow:

User-agent: *
Disallow: /dropbox
Disallow: /contact
Disallow: /blog/wp-login.php
Disallow: /blog/wp-admin

Él solo bloquea su carpeta de dropbox y su pagina de contacto y algunos archivos y carpetas importantes para WordPress. Aunque algunas personas hacen lo último por razones de seguridad, ocultar la carpeta wp-admin is algo que Yoast dice que está mal.

Nuestro siguiente ejemplo es de WPBeginner:

User-Agent: *
Allow: /?display=wide
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /readme.html
Disallow: /refer/

Sitemap: http://www.wpbeginner.com/post-sitemap.xml
Sitemap: http://www.wpbeginner.com/page-sitemap.xml
Sitemap: http://www.wpbeginner.com/deals-sitemap.xml
Sitemap: http://www.wpbeginner.com/hosting-sitemap.xml

Puedes ver que ellos bloquean sus vínculos de afiliación (ves la carpeta “refer”) así como sus plugins y archivo readme.html. Como explican aquí, esto último lo hacen para evitar ataques a ciertas versiones de WordPress.

Bloquear la carpeta de plugins también se hace para mantener a los hackers lejos de plugins vulnerables. Aquí toman una acción diferente a Yoast, que cambió esto hace poco para que los estilos que están adentro a de los plugins no se pierdan.

Una cosa que WPBeginner hace diferente a los otros dos ejemplos es que marca explícitamente la carpeta wp-content/uploads, aunque no está bloqueada por ninguna otra directiva. Dicen que hacen esto para hacer que los motores de búsqueda incluyan esta carpeta.

El veredicto final

Estoy con Yoast a la hora de configurar robots.txt

Desde una perspectiva del SEO, tiene sentido darle a Google tanto como puedas para que entiendan tu sitio. Sin embargo, si quieres quedarte con algunas secciones privadas, marcalas con un Disallow

Esto también tiene sentido con la sección de los robots.txt en el WordPress Codex:

Añadir entradas al robots.txt para ayudar al SEO es un error común. Google dice que puedes usar este archivo para bloquear partes de tu sitio, pero actualmente prefiere que no lo hagas. Mejor usa etiquetas noindex en las páginas con contenido pobre. Desde 2009, Google ha sido aún más explícito al decir que evites bloquear archivos JS y CSS, y el equipo de calidad en búsqueda ha estado más activo promoviendo una política de transparencia con los webmaster. Por lo tanto, el robots.txt ideal no bloquea nada.

WordPress por defecto solo bloquea algunos archivos JS pero cumple con las reglas de Google.

¿Muy claro, no? Ten en cuenta que si decides hacer un vínculo a tu sitemap, también debes de enviarlo a los motores de búsqueda a través de sus herramientas para webmasters.

No importa que decidas, siempre prueba tu sitemap. Esto se puede hacer de las siguientes maneras:

Entra a tusitio.com/robots.txt para ver si aparece.
Envíalo a alguna herramienta en línea para encontrar errores (Aquí un ejemplo)
Ejecuta “Obtener y procesar” en Google Webmaster Tools para revisar que todo se vea correcto y ojo con los mensajes de error.

Robots.txt para WordPress

Crear un archivo robots.txt para tu página web es un paso importante y que muchas veces no es tomado en cuenta en el SEO. Decirle a los motores de búsqueda que partes de tu sitio deben de indexar y cuales no ayuda a no tener contenido innecesario en los resultados de búsqueda.

Por otra parte, como hemos visto, bloquear demasiado a Google puede dañar seriamente el desempeño de tu sitio.

Aunque en el pasado era apropiado ocultar muchas cosas, actualmente es mejor tener un robots.txt bastante simple.

Cuando configures tu archivo, asegúrate de probarlo para asegurarte que no perjudica más de lo que ayuda.

¿Cómo configuras el archivo robots.txt? ¿Algo importante que quieras añadir?

Fuente: Torque

Jorge Castro

Jorge Castro es cofundador de Octopus.mx, una de las agencias líderes de Marketing Digital en Cancún. Tiene experiencia en estrategias integrales de marketing digital. Siempre enfocado a objetivos empresariales, sabe como utilizar las nuevas tecnologías para mejorar y desarrollar los negocios en internet.

4 Comments

DAVID dice:

14 octubre, 2017 a las 08:54

Hola, he creado el archivo robots.txt y he puesto los permisos y demás, pero Google sigue mostrando contenido de mi carpeta wp-content/uploads/ a pesar de haber denegado el acceso. Qué puedo hacer??

Responder
- Jorge Castro dice:
  
  17 octubre, 2017 a las 10:41
  
  Hola David,
  
  ¿Ya revisaste si aparecen en tu sitemap? En su caso, eliminarlas de ahí sería una buena idea también.
  
  Saludos,
  
  Responder

La actualización de Google según empresarios #Mobilegeddon

La guía de un Project Manager para ser productivo