robots.txt

Julio 18, 2007

Son conocidos como Spiders (arañas) a los bots de búsqueda que van revisando la WWW.
Los robots realizan sus tareas de formas automáticas y pueden generar conflictos al servidor, con por ejemplo, exceso de utilización de ancho de banda o accediendo a contenido que no debería tener acceso.

Para suplir este problema surgió el archivo robots.txt, este le informa a los bots a que archivos web tiene acceso y cuales no según el webmaster.

Se utiliza el paramento User-agent: para especificar sobre un bot en particular y Disallow: para especificar cuales son los directorios a “no revisar” (según el bot se pueden utilizar comodines).

Mas información en el estándar de exclusión de robots y en la ayuda de google (googlebot es el bot encargado de indexear las páginas para este buscador).


Otras formas de acceso a la enciclopedia libre

Julio 12, 2007

Hay varias formas de acceder al contenido de Wikipedia, para que se pueda encontrar la información buscada de diferentes formas, ademas de navegando por los links o utilizando el buscador.

Omnipelagos: mediante dos palabras muestra las diferentes relaciones entre dos definiciones.

WikiMindMap: navegación entre los conceptos de wikipedia.

En la página de descarga de wikimedia se puede descargar una copia de los wikis en formato XML o en páginas HTML estáticos.

Exportando una entrada a formato XML.