robots.txt

Son conocidos como Spiders (arañas) a los bots de búsqueda que van revisando la WWW.
Los robots realizan sus tareas de formas automáticas y pueden generar conflictos al servidor, con por ejemplo, exceso de utilización de ancho de banda o accediendo a contenido que no debería tener acceso.

Para suplir este problema surgió el archivo robots.txt, este le informa a los bots a que archivos web tiene acceso y cuales no según el webmaster.

Se utiliza el paramento User-agent: para especificar sobre un bot en particular y Disallow: para especificar cuales son los directorios a “no revisar” (según el bot se pueden utilizar comodines).

Mas información en el estándar de exclusión de robots y en la ayuda de google (googlebot es el bot encargado de indexear las páginas para este buscador).

Anuncios

One Response to robots.txt

  1. Muy buena la info
    saludos
    camaro

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: