Meta robots noindex vs robots.txt

El archivo robots.txt sirve para indicar al crawler de Google, o otros buscadores, que urls debe seguir o no seguir, para la posterior indexación de la página. Este archivo se debe situar en la raiz del dominio.
Ejemplo robots.txt de meneame.net:
User-agent: * (Todos los buscadores)
Sitemap: http://meneame.net/sitemap.php (especifica la ubicación del sitemap)
Disallow: /profile.php (no siga esta url)
Disallow: /login.php (no siga esta url)
Disallow: /submit.php (no siga..)
Disallow: /trackback.php
Disallow: /editlink.php
Disallow: /backend/
Disallow: /index.php
Disallow: /comments_rss2.php?
Disallow: /rss2.php?
Disallow: /javascript:
Disallow: /comments_rss2.php
Disallow: /link_bookmark.php
Estás no son las únicas directrices que se pueden añadir a robots.txt, existen muchas más y las podéis ver en este post muy completo de Emezeta.
Utilizar el robots.txt no significa que esa página se vaya a desindexar. Para ello deberemos de utilizar el metatag robots noindex en la página que no queramos que se indexe. En este metatag podremos decir a Google que no indexe la página, pero que siga los enlaces (follow), pero también podremos hacer diferentes configuraciones.
Ejemplos:
“noindex,nofollow” No indexará la página, ni seguirá los enlaces.
“noindex,follow” No indexará la página, pero si seguirá los enlaces.
“index,nofollow” Indexará la página, pero no seguirá los enlaces
“index,follow” Indexará la página y seguirá los enlaces.
En el blog oficial de Google Webmaster Central explican, un poco más extenso, como utilizar estos dos metodos (robots.txt y metatag robots).
