O procesamento da estrutura sintáctica nos modelos de linguaxe neurais: a concordancia suxeito-verbo en galego e portugués
Loading...
Identifiers
Publication date
Authors
Advisors
Tutors
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Combinando coñecementos das áreas de lingüística computacional e de psicolingüística, neste traballo explórase o coñecemento sintáctico dos modelos de linguaxe neurais, concretamente o principio da concordancia suxeito-verbo en galego e portugués. Co fin de estudar se os modelos procesan este fenómeno de forma semellante aos humanos, elaboráronse dous datasets (un en galego e outro en portugués) con 16 oracións e 8 variantes para cada unha de delas, que teñen en conta a gramaticalidade, a presenza ou ausencia dun distractor e a distancia entre o suxeito e o verbo principal. Con estes elementos, realizáronse enquisas a falantes destas linguas para comprobar a aceptabilidade das oracións en relación ás variables referidas. Cunha versión adaptada dos datasets, avaliáronse os modelos de lingua neurais máis avanzados para galego e portugués. Os resultados parecen indicar que os modelos de ambas as linguas non identifican adecuadamente a agramaticalidade das oracións nas que o principio de concordancia suxeito-verbo non se cumpre, ao contrario do que fan as persoas, que si son quen de distinguir as oracións gramaticais daquelas agramaticais.
Combinando conocimientos de las áreas de lingüística computacional y de psicolingüística, en este trabajo se explora el conocimiento sintáctico de los modelos de lenguaje neuronales, concretamente el principio de la concordancia sujeto-verbo en gallego y portugués. Con el fin de estudiar si los modelos procesan este fenómeno de forma semejante a los humanos, se elaboraron dos datasets (uno en gallego y otro en portugués) con 16 oraciones y 8 variantes para cada una de de ellas, que tienen en cuenta la gramaticalidad, la presencia o ausencia de un distractor y la distancia entre el sujeto y el verbo principal. Con estos elementos, se realizaron encuestas a hablantes de estas lenguas para comprobar la aceptabilidad de las oraciones en relación a las variables referidas. Con una versión adaptada de los datasets, se evaluaron los modelos de lenguaje neuronales más avanzados para gallego y portugués. Los resultados parecen indicar que los modelos de ambas lenguas no identifican adecuadamente la agramaticalidad de las oraciones en las que el principio de concordancia sujeto-verbo no se cumple, al contrario de lo que hacen las personas, que sí son capaces de distinguir las oraciones gramaticales de aquellas agramaticales.
Combining knowledge from the areas of computational linguistics and psycholinguistics, this paper explores the syntactic knowledge of neural language models, specifically the principle of subject-verb agreement in Galician and Portuguese. In order to study whether the models process this phenomenon in a similar way to humans, two datasets were created (one in Galician and one in Portuguese) with 16 sentences and 8 variants for each of them, taking into account grammaticality, the presence or absence of a distractor and the distance between the subject and the main verb. With these elements, surveys were carried out with speakers of these languages to check the acceptability of the sentences in relation to the variables referred to. Using an adapted version of the datasets, the most advanced neural language models for Galician and Portuguese were evaluated. The results seem to indicate that the models for both languages do not adequately identify the ungrammaticality of sentences in which the subject-verb agreement principle is not met, unlike people, who are able to distinguish grammatical sentences from ungrammatical ones.
Combinando conocimientos de las áreas de lingüística computacional y de psicolingüística, en este trabajo se explora el conocimiento sintáctico de los modelos de lenguaje neuronales, concretamente el principio de la concordancia sujeto-verbo en gallego y portugués. Con el fin de estudiar si los modelos procesan este fenómeno de forma semejante a los humanos, se elaboraron dos datasets (uno en gallego y otro en portugués) con 16 oraciones y 8 variantes para cada una de de ellas, que tienen en cuenta la gramaticalidad, la presencia o ausencia de un distractor y la distancia entre el sujeto y el verbo principal. Con estos elementos, se realizaron encuestas a hablantes de estas lenguas para comprobar la aceptabilidad de las oraciones en relación a las variables referidas. Con una versión adaptada de los datasets, se evaluaron los modelos de lenguaje neuronales más avanzados para gallego y portugués. Los resultados parecen indicar que los modelos de ambas lenguas no identifican adecuadamente la agramaticalidad de las oraciones en las que el principio de concordancia sujeto-verbo no se cumple, al contrario de lo que hacen las personas, que sí son capaces de distinguir las oraciones gramaticales de aquellas agramaticales.
Combining knowledge from the areas of computational linguistics and psycholinguistics, this paper explores the syntactic knowledge of neural language models, specifically the principle of subject-verb agreement in Galician and Portuguese. In order to study whether the models process this phenomenon in a similar way to humans, two datasets were created (one in Galician and one in Portuguese) with 16 sentences and 8 variants for each of them, taking into account grammaticality, the presence or absence of a distractor and the distance between the subject and the main verb. With these elements, surveys were carried out with speakers of these languages to check the acceptability of the sentences in relation to the variables referred to. Using an adapted version of the datasets, the most advanced neural language models for Galician and Portuguese were evaluated. The results seem to indicate that the models for both languages do not adequately identify the ungrammaticality of sentences in which the subject-verb agreement principle is not met, unlike people, who are able to distinguish grammatical sentences from ungrammatical ones.
Description
Keywords
Modelos de linguaxe| Procesamento de linguaxe natural| Sintaxe| Concordancia suxeito-verbo| Galego| Portugués| Modelos de lenguaje| Procesamiento de lenguaje natural| Sintaxis| Concordancia sujeto-verbo| Gallego| Language models| Natural language processing| Syntax| Subject-verb agreement| Galician| Portuguese
Bibliographic citation
Relation
Has part
Has version
Is based on
Is part of
Is referenced by
Is version of
Requires
Sponsors
Rights
Attribution-NonCommercial-ShareAlike 4.0 International








