O procesamento da estrutura sintáctica nos modelos de linguaxe neurais: a concordancia suxeito-verbo en galego e portugués

dc.contributor.affiliationUniversidade de Santiago de Compostela. Departamento de Filoloxía Galega
dc.contributor.affiliationUniversidade de Santiago de Compostela. Facultade de Filoloxía
dc.contributor.authorPérez Puente, Helena
dc.contributor.tutorGarcía González, Marcos
dc.date.accessioned2025-05-09T11:56:50Z
dc.date.available2025-05-09T11:56:50Z
dc.date.issued2024-05-06
dc.description.abstractCombinando coñecementos das áreas de lingüística computacional e de psicolingüística, neste traballo explórase o coñecemento sintáctico dos modelos de linguaxe neurais, concretamente o principio da concordancia suxeito-verbo en galego e portugués. Co fin de estudar se os modelos procesan este fenómeno de forma semellante aos humanos, elaboráronse dous datasets (un en galego e outro en portugués) con 16 oracións e 8 variantes para cada unha de delas, que teñen en conta a gramaticalidade, a presenza ou ausencia dun distractor e a distancia entre o suxeito e o verbo principal. Con estes elementos, realizáronse enquisas a falantes destas linguas para comprobar a aceptabilidade das oracións en relación ás variables referidas. Cunha versión adaptada dos datasets, avaliáronse os modelos de lingua neurais máis avanzados para galego e portugués. Os resultados parecen indicar que os modelos de ambas as linguas non identifican adecuadamente a agramaticalidade das oracións nas que o principio de concordancia suxeito-verbo non se cumpre, ao contrario do que fan as persoas, que si son quen de distinguir as oracións gramaticais daquelas agramaticais.
dc.description.abstractCombinando conocimientos de las áreas de lingüística computacional y de psicolingüística, en este trabajo se explora el conocimiento sintáctico de los modelos de lenguaje neuronales, concretamente el principio de la concordancia sujeto-verbo en gallego y portugués. Con el fin de estudiar si los modelos procesan este fenómeno de forma semejante a los humanos, se elaboraron dos datasets (uno en gallego y otro en portugués) con 16 oraciones y 8 variantes para cada una de de ellas, que tienen en cuenta la gramaticalidad, la presencia o ausencia de un distractor y la distancia entre el sujeto y el verbo principal. Con estos elementos, se realizaron encuestas a hablantes de estas lenguas para comprobar la aceptabilidad de las oraciones en relación a las variables referidas. Con una versión adaptada de los datasets, se evaluaron los modelos de lenguaje neuronales más avanzados para gallego y portugués. Los resultados parecen indicar que los modelos de ambas lenguas no identifican adecuadamente la agramaticalidad de las oraciones en las que el principio de concordancia sujeto-verbo no se cumple, al contrario de lo que hacen las personas, que sí son capaces de distinguir las oraciones gramaticales de aquellas agramaticales.
dc.description.abstractCombining knowledge from the areas of computational linguistics and psycholinguistics, this paper explores the syntactic knowledge of neural language models, specifically the principle of subject-verb agreement in Galician and Portuguese. In order to study whether the models process this phenomenon in a similar way to humans, two datasets were created (one in Galician and one in Portuguese) with 16 sentences and 8 variants for each of them, taking into account grammaticality, the presence or absence of a distractor and the distance between the subject and the main verb. With these elements, surveys were carried out with speakers of these languages to check the acceptability of the sentences in relation to the variables referred to. Using an adapted version of the datasets, the most advanced neural language models for Galician and Portuguese were evaluated. The results seem to indicate that the models for both languages do not adequately identify the ungrammaticality of sentences in which the subject-verb agreement principle is not met, unlike people, who are able to distinguish grammatical sentences from ungrammatical ones.
dc.identifier.urihttps://hdl.handle.net/10347/41320
dc.language.isoglg
dc.rightsAttribution-NonCommercial-ShareAlike 4.0 Internationalen
dc.rights.accessRightsopen access
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/4.0/
dc.subjectModelos de linguaxe
dc.subjectProcesamento de linguaxe natural
dc.subjectSintaxe
dc.subjectConcordancia suxeito-verbo
dc.subjectGalego
dc.subjectPortugués
dc.subjectModelos de lenguaje
dc.subjectProcesamiento de lenguaje natural
dc.subjectSintaxis
dc.subjectConcordancia sujeto-verbo
dc.subjectGallego
dc.subjectLanguage models
dc.subjectNatural language processing
dc.subjectSyntax
dc.subjectSubject-verb agreement
dc.subjectGalician
dc.subjectPortuguese
dc.subject.classification570507 Psicolingüística
dc.subject.classification5705 Lingüística sincrónica
dc.titleO procesamento da estrutura sintáctica nos modelos de linguaxe neurais: a concordancia suxeito-verbo en galego e portugués
dc.title.alternativeEl procesamiento de la estructura sintáctica en los modelos de lenguaje neuronales: la concordancia sujeto-verbo en gallego y portugués
dc.title.alternativeProcessing of Syntactic Structure in Neural Language Models: Subject-Verb Agreement in Galician and Portuguese
dc.typebachelor thesis
dspace.entity.typePublication
relation.isAdvisorOfPublicationae090fc6-2387-4087-ba21-7271835b4b35
relation.isTutorOfPublicationae090fc6-2387-4087-ba21-7271835b4b35
relation.isTutorOfPublication.latestForDiscoveryae090fc6-2387-4087-ba21-7271835b4b35

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
TFG_Helena Pérez Puente.pdf
Size:
1.09 MB
Format:
Adobe Portable Document Format