Estudio sobre el impacto del corpus de entrenamiento del modelo de lenguaje en las prestaciones de un reconocedor de habla

Piñeiro Martín, Andrés; García-Mateo, Carmen; Docío Fernández, Laura; Regueira Fernández, Xosé Luís

doi:10.26342/2018-61-8

Estudio sobre el impacto del corpus de entrenamiento del modelo de lenguaje en las prestaciones de un reconocedor de habla

Files

Procesamiento_del_lenguaje_natural_2018.pdf (1.54 MB)

Identifiers

URI: http://hdl.handle.net/10347/17787

ISSN: 1135-5948

E-ISSN: 1989-7553

DOI: 10.26342/2018-61-8

Publication date

2018

Authors

Piñeiro Martín, Andrés

García-Mateo, Carmen

Docío Fernández, Laura

Regueira Fernández, Xosé Luís

Publisher

Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN)

Metrics

Export

Description

Dentro del reconocimiento automático del habla, los modelos de lenguaje estadísticos basados en la probabilidad de secuencia de palabras (n-gramas) suponen uno de los dos pilares sobre los que se basa su correcto funcionamiento. En este trabajo se expone el impacto que tienen sobre las prestaciones de reconocimiento a medida que estos modelos se mejoran con más texto de mejor calidad, cuando estos se ajustan a la aplicación final del sistema, y por lo tanto, cuando se reducen el número de palabras fuera de vocabulario (Out Of Vocabulary - OOV). El reconocedor con los distintos modelos de lenguaje ha sido aplicado sobre cortes de audio correspondientes a tres marcos experimentales: oralidad formal, habla en noticiarios, y TED talks en gallego. Los resultados obtenidos muestran claramente una mejora sobre los marcos experimentales propuestos

Keywords

Bibliographic citation

Andrés Piñeiro Martín, Carmen García-Mateo, Laura Docío-Fernández, Xosé Luís Regueira (2018): Estudio sobre el impacto del corpus de entrenamiento del modelo de lenguaje en las prestaciones de un reconocedor de habla. Procesamiento del Lenguaje Natural 61, 75-82

Publisher version

http://dx.doi.org/10.26342/2018-61-8

Rights

Collections

Instituto da Lingua Galega (ILG)
Filoloxía Galega

Full item page

Estudio sobre el impacto del corpus de entrenamiento del modelo de lenguaje en las prestaciones de un reconocedor de habla

Files

Identifiers

Publication date

Authors

Advisors

Tutors

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Metrics

Export

Research Projects

Organizational Units

Journal Issue

Abstract

Description

Keywords

Bibliographic citation

Relation

Has part

Has version

Is based on

Is part of

Is referenced by

Is version of

Requires

Publisher version

Sponsors

Rights

Collections