robots.txt
Julio 18, 2007Son conocidos como Spiders (arañas) a los bots de búsqueda que van revisando la WWW.
Los robots realizan sus tareas de formas automáticas y pueden generar conflictos al servidor, con por ejemplo, exceso de utilización de ancho de banda o accediendo a contenido que no debería tener acceso.
Para suplir este problema surgió el archivo robots.txt, este le informa a los bots a que archivos web tiene acceso y cuales no según el webmaster.
Se utiliza el paramento User-agent: para especificar sobre un bot en particular y Disallow: para especificar cuales son los directorios a “no revisar” (según el bot se pueden utilizar comodines).
Mas información en el estándar de exclusión de robots y en la ayuda de google (googlebot es el bot encargado de indexear las páginas para este buscador).
Publicado por gupezagn