Análisis morfosintáctico y clasificación de entidades nombradas en un entorno Big Data

Gamallo Otero, Pablo; Pichel Campos, Juan Carlos; García González, Marcos; Abuín Mosquera, José Manuel; Fernández Pena, Anselmo Tomás

Análisis morfosintáctico y clasificación de entidades nombradas en un entorno Big Data

Files

2014_plnr_gamallo_analisis.pdf (1002.12 KB)

Identifiers

URI: http://hdl.handle.net/10347/17696

ISSN: 1135-5948

E-ISSN: 1989-7553

Publication date

2014

Authors

Gamallo Otero, Pablo

Pichel Campos, Juan Carlos

García González, Marcos

Abuín Mosquera, José Manuel

Fernández Pena, Anselmo Tomás

Publisher

Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN)

Metrics

Export

Abstract

Este artículo describe una suite de módulos lingüísticos para el castellano, basado en una arquitectura en tuberías, que incluye tareas de análisis morfosintáctico así como de reconocimiento y clasificación de entidades nombradas. Se han aplicado técnicas de paralelización en un entorno Big Data para conseguir que la suite de módulos sea más eficiente y escalable y, de este modo, reducir de forma significativa los tiempos de cómputo con los que poder abordar problemas a la escala de la Web. Los módulos han sido desarrollados con técnicas básicas para facilitar su integración en entornos distribuidos, con un rendimiento próximo al estado del arte
This article describes a suite of linguistic modules for the Spanish language based on a pipeline architecture, which contains tasks for PoS tagging and Named Entity Recognition and Classification (NERC). We have applied run-time parallelization techniques in a Big Data environment in order to make the suite of modules more efficient and scalable, and thereby to reduce computation time in a significant way. Therefore, we can address problems at Web scale. The linguistic modules have been developed using basic NLP techniques in order to easily integrate them in distributed computing environments. The qualitative performance of the modules is close the the state of the art

Keywords

Bibliographic citation

Gamallo, P., Pichel, J., García, M., Abuín, J., & Fernández Pena, T. (2014). Análisis morfosintáctico y clasificación de entidades nombradas en un entorno Big Data. Procesamiento Del Lenguaje Natural, 53, 17-24. Recuperado de http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5046/2934

Publisher version

http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5046

Rights

Collections

Centro de Investigación en Tecnoloxías Intelixentes da USC (CiTIUS)
Electrónica e Computación
Lingua e Literatura Españolas, Teoría da Literatura e Lingüística Xeral

Full item page

Análisis morfosintáctico y clasificación de entidades nombradas en un entorno Big Data

Files

Identifiers

Publication date

Authors

Advisors

Tutors

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Metrics

Export

Research Projects

Organizational Units

Journal Issue

Abstract

Description

Keywords

Bibliographic citation

Relation

Has part

Has version

Is based on

Is part of

Is referenced by

Is version of

Requires

Publisher version

Sponsors

Rights

Collections