Nuevos retos de la tecnología web crawler para la recuperación de información

Manuel Blázquez Ochando

doi:10.5557/IIMEI4-N7-115128

Nuevos retos de la tecnología web crawler para la recuperación de información

Manuel Blázquez Ochando

Resumen

El web crawler constituye una parte importante de la cadena documental en la recuperación de información, dado que genera el corpus documental necesario sobre el que aplicar los distintos algoritmos de recuperación. Dada su relevancia, se analiza el papel que desempeñan, sus distintos enfoques, aportaciones significativas y estado de la técnica. Algunas de las conclusiones obtenidas, apuntan a la introducción del reconocimiento del marcado semántico en la web, al desarrollo de un web crawler más polivalente, capaz de interactuar con la web social y realizar campañas de comunicación.

Palabras clave

web crawler, recuperación de información, marcado semántico, Apache Nutch, Heritrix, WIRE, SocSciBot, Mbot

Texto completo:

PDF

DOI: https://doi.org/10.5557/IIMEI4-N7-115128

Enlaces refback

No hay ningún enlace refback.

Este trabajo está licenciado bajo la licencia Creative Commons Attribution 3.0 .

ISSN: 2173-1241

Nombre de usuario/a
Contraseña
No cerrar sesión