Técnicas de Procesamiento del Lenguaje Natural en la Recuperación de Información
Loading...
Identifiers
Publication date
Advisors
Tutors
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Asociación de Técnicos de Informática (ATI)
Abstract
En este artículo se describe el efecto de la integración de varias técnicas basadas en el procesamiento
del lenguaje natural en sistemas de recuperación de información. Se estudiarán, en concreto, métodos
de lematización, anotación de categorías morfosintácticas, identificación de nombres propios
compuestos y análisis en dependencias. Una evaluación a gran escala con colecciones de documentos
en español nos permitirá verificar que la combinación de estas técnicas con otras menos sofisticadas,
tales como tokenización y eliminación de palabras gramaticales, contribuye a una mejora significativa
de la calidad de los sistemas de recuperación
In this article, we describe the way in which different methods based on Natural Language Processing (NLP) can be integrated in Information Retrieval systems. More precisely, we will study NLP strategies such as lemmatization, PoS tagging, named entities recognition, and dependency-based parsing. A large scale evaluation on Spanish documents will be performed. This will allow us to verify whether these strategies combined with less complex NLP techniques (e.g., tokenization and stopwords removal) improve the quality of IR systems. The results reported at the end of the paper show that NLP-based strategies yield significant improvements
In this article, we describe the way in which different methods based on Natural Language Processing (NLP) can be integrated in Information Retrieval systems. More precisely, we will study NLP strategies such as lemmatization, PoS tagging, named entities recognition, and dependency-based parsing. A large scale evaluation on Spanish documents will be performed. This will allow us to verify whether these strategies combined with less complex NLP techniques (e.g., tokenization and stopwords removal) improve the quality of IR systems. The results reported at the end of the paper show that NLP-based strategies yield significant improvements
Description
Bibliographic citation
Gamallo Otero, P. y García González, M. (2012). Técnicas de Procesamiento del Lenguaje Natural en la Recuperación de Información. NovATIca, 219, 42-47
Relation
Has part
Has version
Is based on
Is part of
Is referenced by
Is version of
Requires
Publisher version
http://www.ati.es/novatica2-2.htmlSponsors
Rights
© 2012 Asociación de Técnicos de Informática (ATI)








