Estudio sobre el impacto del corpus de entrenamiento del modelo de lenguaje en las prestaciones de un reconocedor de habla

Piñeiro Martín, Andrés; García-Mateo, Carmen; Docío Fernández, Laura; Regueira Fernández, Xosé Luís

doi:10.26342/2018-61-8

Estudio sobre el impacto del corpus de entrenamiento del modelo de lenguaje en las prestaciones de un reconocedor de habla

dc.contributor.affiliation	Universidade de Santiago de Compostela. Instituto da Lingua Galega (ILG)	gl
dc.contributor.author	Piñeiro Martín, Andrés
dc.contributor.author	García-Mateo, Carmen
dc.contributor.author	Docío Fernández, Laura
dc.contributor.author	Regueira Fernández, Xosé Luís
dc.date.accessioned	2018-11-20T12:27:00Z
dc.date.available	2018-11-20T12:27:00Z
dc.date.issued	2018
dc.description	Dentro del reconocimiento automático del habla, los modelos de lenguaje estadísticos basados en la probabilidad de secuencia de palabras (n-gramas) suponen uno de los dos pilares sobre los que se basa su correcto funcionamiento. En este trabajo se expone el impacto que tienen sobre las prestaciones de reconocimiento a medida que estos modelos se mejoran con más texto de mejor calidad, cuando estos se ajustan a la aplicación final del sistema, y por lo tanto, cuando se reducen el número de palabras fuera de vocabulario (Out Of Vocabulary - OOV). El reconocedor con los distintos modelos de lenguaje ha sido aplicado sobre cortes de audio correspondientes a tres marcos experimentales: oralidad formal, habla en noticiarios, y TED talks en gallego. Los resultados obtenidos muestran claramente una mejora sobre los marcos experimentales propuestos	gl
dc.description.peerreviewed	SI	gl
dc.identifier.citation	Andrés Piñeiro Martín, Carmen García-Mateo, Laura Docío-Fernández, Xosé Luís Regueira (2018): Estudio sobre el impacto del corpus de entrenamiento del modelo de lenguaje en las prestaciones de un reconocedor de habla. Procesamiento del Lenguaje Natural 61, 75-82	gl
dc.identifier.doi	10.26342/2018-61-8
dc.identifier.essn	1989-7553
dc.identifier.issn	1135-5948
dc.identifier.uri	http://hdl.handle.net/10347/17787
dc.language.iso	spa	gl
dc.publisher	Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN)	gl
dc.relation.publisherversion	http://dx.doi.org/10.26342/2018-61-8	gl
dc.rights	© 2018 Sociedad Española para el Procesamiento del Lenguaje Natural	gl
dc.rights.accessRights	open access	gl
dc.rights.uri	http://creativecommons.org/licenses/by-nc/4.0/
dc.subject	Galego (lingua)	gl
dc.subject	Gallego (lengua)	gl
dc.subject	Galician (language)	gl
dc.subject	Modelos de linguaxe	gl
dc.subject	Modelos de lenguaje	gl
dc.subject	Language models	gl
dc.subject	Variación lingüística	gl
dc.subject	Linguistic variation	gl
dc.subject	Reconocimiento automático da fala	gl
dc.subject	Reconocimiento automático del habla	gl
dc.subject	Automatic speech recognition	gl
dc.subject	Palabras fóra de vocabulario	gl
dc.subject	Palabras fuera de vocabulario	gl
dc.subject	Out of vocabulary words	gl
dc.title	Estudio sobre el impacto del corpus de entrenamiento del modelo de lenguaje en las prestaciones de un reconocedor de habla	gl
dc.type	journal article	gl
dc.type.hasVersion	VoR	gl
dspace.entity.type	Publication
relation.isAuthorOfPublication	c2412a10-e98f-4bc7-a0d1-d54104e84e86
relation.isAuthorOfPublication.latestForDiscovery	c2412a10-e98f-4bc7-a0d1-d54104e84e86

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Procesamiento_del_lenguaje_natural_2018.pdf
Size:: 1.54 MB
Format:: Adobe Portable Document Format
Description:

Download

Collections

Instituto da Lingua Galega (ILG)
Filoloxía Galega