Computational tools and spoken corpora design: an ongoing dialogue

Vázquez Rozas, Victoria; Barcala, Mario

doi:10.7203/caplletra.69.17270

Computational tools and spoken corpora design: an ongoing dialogue

Files

2020_Computacional_tools.pdf (307.96 KB)

Identifiers

URI: http://hdl.handle.net/10347/32251

ISSN: 2386-7159

DOI: 10.7203/caplletra.69.17270

Publication date

2020

Authors

Vázquez Rozas, Victoria

Barcala, Mario

Publisher

Consorci d'Editors Valencians

Metrics

Export

Abstract

The design of an oral corpus and the processes of registering, codifying and treating the materials in order to build a useful resource for linguistic analysis prompt numerous decisions regarding theory and methodology. This article is focused on those stages of corpus construction which are more clearly conditioned by the computational processing necessary to make it functional. In order to adequately match the initial expectations and the real possibilities of using the tool, each feature we intend to codify must be measured against the workload and the means required to do so. Therefore, it is essential to take into account the available possibilities of processing and exploitation as they have a crucial impact on decisions regarding the corpus’ construction.Based on experience acquired in the construction of the ESLORA corpus, the present article looks into some of the problems arising in the process of designing an oral corpus, such as the delicacy.
El disseny d’un corpus oral i els processos de registrar, codificar i tractar els materials per construir un recurs útil per a l’anàlisi lingüística, comporta nombroses decisions pel que fa a la teoria i la metodologia. Aquest article s’ocupa d’aquelles etapes de la construcció d’un corpus que més clarament estan condicionades pel processament informàtic necessari que ha de fer el corpus funcional. Per tal de conjugar les expectatives inicials i les possibilitats reals quan usem l’eina, cada característica que pretenem codificar ha de ser mesurada quant a la càrrega de treball que comporta i els mitjans que són requerits per fer-ho possible. Per això, és essencial tenir en compte els recursos disponibles a l’hora de processar i explotar el corpus, ja que tenen un impacte fonamental en les decisions pel que fa a la construcció del corpus. Basat en l’experiència adquirida en la construcció del corpus ESLORA, l’article analitza alguns dels problemes que sorgeixen en el procés de dissenyar un corpus oral, com ara el grau de detall en què és representat el fenomen oral, la segmentació del discurs, la convivència de diferents sistemes d’etiquetatge simultanis i les particularitats de l’anotació en un context bilingüe o multilingüe.

Keywords

Bibliographic citation

Vázquez Rozas, V.; Barcala, M.(2020). Computational toolsand spoken corpora desingn: an ongoing dialogue. Caplletra: Revista internacional de filología, N. 69, pp. 221-240.

Publisher version

https://doi.org/10.7203/caplletra.69.17270

Rights

Collections

Lingua e Literatura Españolas, Teoría da Literatura e Lingüística Xeral

Full item page

Computational tools and spoken corpora design: an ongoing dialogue

Files

Identifiers

Publication date

Authors

Advisors

Tutors

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Metrics

Export

Research Projects

Organizational Units

Journal Issue

Abstract

Description

Keywords

Bibliographic citation

Relation

Has part

Has version

Is based on

Is part of

Is referenced by

Is version of

Requires

Publisher version

Sponsors

Rights

Collections