Meta robots noindex vs robots.txt

robots txt
El archivo robots.txt sirve para indicar al crawler de Google, o otros buscadores, que urls debe seguir o no seguir, para la posterior indexación de la página. Este archivo se debe situar en la raiz del dominio.

Ejemplo robots.txt de meneame.net:

User-agent: * (Todos los buscadores)
Sitemap: http://meneame.net/sitemap.php (especifica la ubicación del sitemap)
Disallow: /profile.php (no siga esta url)
Disallow: /login.php (no siga esta url)
Disallow: /submit.php (no siga..)
Disallow: /trackback.php
Disallow: /editlink.php
Disallow: /backend/
Disallow: /index.php
Disallow: /comments_rss2.php?
Disallow: /rss2.php?
Disallow: /javascript:
Disallow: /comments_rss2.php
Disallow: /link_bookmark.php

Estás no son las únicas directrices que se pueden añadir a robots.txt, existen muchas más y las podéis ver en este post muy completo de Emezeta.

Utilizar el robots.txt no significa que esa página se vaya a desindexar. Para ello deberemos de utilizar el metatag robots noindex en la página que no queramos que se indexe. En este metatag podremos decir a Google que no indexe la página, pero que siga los enlaces (follow), pero también podremos hacer diferentes configuraciones.

Ejemplos:

“noindex,nofollow” No indexará la página, ni seguirá los enlaces.
“noindex,follow” No indexará la página, pero si seguirá los enlaces.
“index,nofollow” Indexará la página, pero no seguirá los enlaces
“index,follow” Indexará la página y seguirá los enlaces.

En el blog oficial de Google Webmaster Central explican, un poco más extenso, como utilizar estos dos metodos (robots.txt y metatag robots).

Comentar

* * (no se publicará) ir al contenido