Estratégias Lexicométricas para Detetar Especificidades Textuais
Loading...
Identifiers
Publication date
Advisors
Tutors
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Universidade do Minho
Universidade de Vigo
Universidade de Vigo
Abstract
Neste artigo propomo-nos a definir e desenvolver uma estratégia automática para procurar especificidades lexicais dentro de conjuntos de textos utilizando unidades lexicais simples e expressões com várias palavras, ou termos multipalavra (MWE, a sua sigla em inglês).
Propomos uma metodologia para o cálculo da divergência de distribuições de lemas e de MWE que permitirá encontrar, automaticamente, diferenças e semelhanças entre textos não anotados. Esta metodologia poderá ser utilizada para posteriormente identificar grupos de textos sobre os quais se procederá a análises quantitativas e qualitativas semiautomáticas e/ou com intervenção humana.
Num primeiro teste, utilizamos dois textos de especialidade (da área da pediatria) e um texto literário, presumindo que os textos de especialidade deveriam apresentar maiores divergências relativamente ao texto literário do que entre eles próprios. Como os testes feitos mostraram a tendência esperada, decidimos aplicar a mesma metodologia a um segundo grupo de textos (três conjuntos de entrevistas a visitantes da cidade de Santiago de Compostela)
In this article we propose to define and develop an automatic strategy to search for lexical specificities within sets of texts using simple lexical units and multiword expressions (MWE).We propose a methodology for calculating the divergence of lemma and MWE distributions that will automatically find differences and similarities between unlabeled texts. This methodology can be used to subsequently identify groups of texts to which quantitative and qualitative analyzes will be applied (semiautomatically and/or with human intervention).In a first test, we used two specialized texts (from the area of Paediatrics) and a literary text, assuming that the texts of specialty should present greater divergences with respect to the literary text than among themselves. As the tests that were done showed the expected trend, we decided to apply the same methodology to a second set of texts (three sets of interviews done to visitors in the city of Santiago de Compostela)
In this article we propose to define and develop an automatic strategy to search for lexical specificities within sets of texts using simple lexical units and multiword expressions (MWE).We propose a methodology for calculating the divergence of lemma and MWE distributions that will automatically find differences and similarities between unlabeled texts. This methodology can be used to subsequently identify groups of texts to which quantitative and qualitative analyzes will be applied (semiautomatically and/or with human intervention).In a first test, we used two specialized texts (from the area of Paediatrics) and a literary text, assuming that the texts of specialty should present greater divergences with respect to the literary text than among themselves. As the tests that were done showed the expected trend, we decided to apply the same methodology to a second set of texts (three sets of interviews done to visitors in the city of Santiago de Compostela)
Description
Bibliographic citation
Iriarte Sanromán, Álvaro, Gamallo Otero, P., & Simões, A. (2018). Estratégias Lexicométricas para Detetar Especificidades Textuais. Linguamática, 10(1), 19-26. https://doi.org/10.21814/lm.10.1.263
Relation
Has part
Has version
Is based on
Is part of
Is referenced by
Is version of
Requires
Publisher version
https://doi.org/10.21814/lm.10.1.263Sponsors
Este trabalho é apoiado pelo projetoNarrativas, usos e consumos de visitantes como aliados amenaças para o bem-estar da comunidade local: o caso de Santiago de Compostela. Ref:FFI2017-88196-R, parcialmente subsidiado pelo Ministerio de Industria, Economía y Competitividad espanhol no quadro do Programa Estatal de I+D+i Orientada a los Retos de la Sociedad (2018-2021)
Rights
Direitos de Autor (c) 2018 Álvaro Iriarte Sanromán, Pablo Gamallo Otero, Alberto Simões. This work is licensed under a Creative Commons Attribution 4.0 International License
Atribución 4.0 Internacional
Atribución 4.0 Internacional








