Técnicas de Procesamiento del Lenguaje Natural en la Recuperación de Información

Loading...
Thumbnail Image
Identifiers

Publication date

Advisors

Tutors

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Asociación de Técnicos de Informática (ATI)
Metrics
Google Scholar
lacobus
Export

Research Projects

Organizational Units

Journal Issue

Abstract

En este artículo se describe el efecto de la integración de varias técnicas basadas en el procesamiento del lenguaje natural en sistemas de recuperación de información. Se estudiarán, en concreto, métodos de lematización, anotación de categorías morfosintácticas, identificación de nombres propios compuestos y análisis en dependencias. Una evaluación a gran escala con colecciones de documentos en español nos permitirá verificar que la combinación de estas técnicas con otras menos sofisticadas, tales como tokenización y eliminación de palabras gramaticales, contribuye a una mejora significativa de la calidad de los sistemas de recuperación
In this article, we describe the way in which different methods based on Natural Language Processing (NLP) can be integrated in Information Retrieval systems. More precisely, we will study NLP strategies such as lemmatization, PoS tagging, named entities recognition, and dependency-based parsing. A large scale evaluation on Spanish documents will be performed. This will allow us to verify whether these strategies combined with less complex NLP techniques (e.g., tokenization and stopwords removal) improve the quality of IR systems. The results reported at the end of the paper show that NLP-based strategies yield significant improvements

Description

Bibliographic citation

Gamallo Otero, P. y García González, M. (2012). Técnicas de Procesamiento del Lenguaje Natural en la Recuperación de Información. NovATIca, 219, 42-47

Relation

Has part

Has version

Is based on

Is part of

Is referenced by

Is version of

Requires

Sponsors

Rights

© 2012 Asociación de Técnicos de Informática (ATI)