Estudio sobre el impacto del corpus de entrenamiento del modelo de lenguaje en las prestaciones de un reconocedor de habla

Piñeiro Martín, AndrésGarcía-Mateo, CarmenDocío Fernández, LauraRegueira Fernández, Xosé Luís2018-11-202018-11-202018Andrés Piñeiro Martín, Carmen García-Mateo, Laura Docío-Fernández, Xosé Luís Regueira (2018): Estudio sobre el impacto del corpus de entrenamiento del modelo de lenguaje en las prestaciones de un reconocedor de habla. Procesamiento del Lenguaje Natural 61, 75-821135-5948http://hdl.handle.net/10347/17787Dentro del reconocimiento automático del habla, los modelos de lenguaje estadísticos basados en la probabilidad de secuencia de palabras (n-gramas) suponen uno de los dos pilares sobre los que se basa su correcto funcionamiento. En este trabajo se expone el impacto que tienen sobre las prestaciones de reconocimiento a medida que estos modelos se mejoran con más texto de mejor calidad, cuando estos se ajustan a la aplicación final del sistema, y por lo tanto, cuando se reducen el número de palabras fuera de vocabulario (Out Of Vocabulary - OOV). El reconocedor con los distintos modelos de lenguaje ha sido aplicado sobre cortes de audio correspondientes a tres marcos experimentales: oralidad formal, habla en noticiarios, y TED talks en gallego. Los resultados obtenidos muestran claramente una mejora sobre los marcos experimentales propuestosspa© 2018 Sociedad Española para el Procesamiento del Lenguaje Naturalhttp://creativecommons.org/licenses/by-nc/4.0/Galego (lingua)Gallego (lengua)Galician (language)Modelos de linguaxeModelos de lenguajeLanguage modelsVariación lingüísticaLinguistic variationReconocimiento automático da falaReconocimiento automático del hablaAutomatic speech recognitionPalabras fóra de vocabularioPalabras fuera de vocabularioOut of vocabulary wordsEstudio sobre el impacto del corpus de entrenamiento del modelo de lenguaje en las prestaciones de un reconocedor de hablajournal article10.26342/2018-61-81989-7553open access