Parallel Corpora Spanish (PaCorES): A collection of multifunctional parallel corpora
| dc.contributor.affiliation | Universidade de Santiago de Compostela. Departamento de Filoloxía Inglesa e Alemá | |
| dc.contributor.author | Doval Reixa, Irene | |
| dc.contributor.author | Sánchez Nieto, María Teresa | |
| dc.date.accessioned | 2025-01-30T10:12:22Z | |
| dc.date.available | 2025-01-30T10:12:22Z | |
| dc.date.issued | 2026 | |
| dc.description.abstract | The objective of this work is to provide researchers in the field of corpus linguistics with proper documentation on the PaCorES Project (www.pacores.eu). The PaCorES project was created with the aim of building a collection of bidirectional parallel bilingual corpora with Spanish as the central language. The corpora currently included in the collection, in order of creation, are as follows: 1) The Parallel Corpus German<>Spanish, PaGeS, www.corpuspages.eu 2) The Parallel Corpus English<>Spanish, PaEnS, www.corpuspaens.eu 3) The Parallel Corpus Chinese<>Spanish, PaCheS, www.corpuspaches.eu 4) The Parallel Corpus French<>Spanish, PaFreS, www.corpuspafres.eu First, the authors identify the gaps and deficiencies in the landscape of bilingual and multilingual parallel corpora that include Spanish as one of the languages. Additionally, they highlight the inclusion of a particularly rare language pair, Chinese/Spanish, which has great potential due to the number of users. Next, they present the criteria that guided the design and architecture of the corpora to overcome these deficiencies. The paper emphasizes that the PaCorES corpora are fully accessible and stable, meaning they can be freely consulted online without restrictions. Stability is guaranteed, as the PaCorES corpora are published successively in clearly identified versions. Currently, the core PaCorES corpora include a collection of contemporary prose texts, mostly fiction. This type of text is underrepresented in parallel corpora due to the difficulty of obtaining them. They offer proven quality due to editorial control, and their translations have been carried out by professionals. The corpora are annotated with detailed metatextual information, documenting not only the complete source of the texts but also other data such as the translation direction, the degree of literalness, and the translator’s intervention. The next section is dedicated to the alignment process, the different software used, the F1 score achieved, and its manual review. The search architecture is explained, emphasizing the availability of three levels of search to accommodate different user needs, and detailing the functionalities of the interface and result presentation. Finally, the authors highlight that not only the individual components of PaCorES but also the project as a whole are designed with flexibility in mind. New language pairs can be added within the same collection architecture, and new texts can be incorporated into the individual components. The authors conclude that all these features make the PaCorES corpora a truly multifunctional resource that meets the needs of a wide variety of users. It serves specialists in linguistics in fields such as NLP (Natural Language Processing), lexicography, contrastive linguistics, translation studies, and language teaching and translation. Moreover, the ease of use of its search and visualization functions, along with the fast retrieval speed, allows the PaCorES collection to be used as an educational resource in language and translation teaching. In this context, intermediate to advanced students can discover numerous translation suggestions for a given term, presented directly through reliable usage examples. | |
| dc.description.abstract | El objetivo de este trabajo es proporcionar a los investigadores en el ámbito de la lingüística de corpus documentación adecuada del Proyecto PaCorES (www.pacores.eu). El proyecto PaCorES surgió con el objeto de construir una colección de corpus bilingües paralelos bidireccionales con el español como lengua central. Los corpus que actualmente forman la colección son los siguientes en orden de creación: 1) El Parallel Corpus German <>Spanish, PaGeS, www.corpuspages.eu 2) El Parallel Corpus English<>Spanish, PaEnS, www.corpuspaens.eu 3) El Parallel Corpus Chinese<>Spanish, PaCheS, www.corpuspaches.eu 4) El Parallel Corpus French<>Spanish, PaFreS, www.corpuspafres.eu En primer lugar las autoras identifican las lagunas y déficits existentes en el panorama de los corpus paralelos bilingües y multilingües que incluyen el español como una de sus lenguas. Además, ofrece un par de lenguas en particular, chino/español, un recurso muy poco común que posee un gran potencial en términos de número de usuarios. A continuación exponen los criterios que han guiado el diseño y la arquitectura de los corpus a fin de superar esos déficits. En el trabajo se subraya que los corpus de PaCorES son totalmente accesibles y estables, esto es, pueden consultarse libremente en línea sin restricciones. La estabilidad está garantizada, ya que los corpus de PaCorES se publican sucesivamente en versiones claramente identificadas. Actualmente los corpus nucleares de PaCorES incluyen una colección de textos contemporáneos en prosa mayoritariamente de ficción. Este tipo de textos están muy escasamente representados en los corpus paralelos por la dificultad de su obtención. Ofrecen una calidad probada debido al control editorial y sus traducciones han sido realizadas por profesionales. Los corpus están anotados con información metatextual detallada, documentando no solo la fuente completa de los textos, sino también otros datos como la dirección de la traducción, el grado de literalidad y la intervención del traductor. La sección siguiente se dedica al proceso de alineado, los distintos software utilizados, el F1 score alcanzado y a su revisión manual. Se explica la arquitectura de la búsqueda, se subraya la existencia de tres niveles de búsqueda disponibles para interrogar el corpus, atendiendo a las distintas necesidades de los usuarios, y se explica las funcionalidades de la interfaz y de la presentación de resultados. Finalmente, las autoras señalan que no solo los componentes individuales de PaCorES, sino el proyecto en su conjunto, están diseñados con flexibilidad en mente, ya que pueden añadirse nuevos pares de lenguas dentro de la misma arquitectura de la colección e incorporarse nuevos textos a los componentes individuales. La conclusión de las autoras es que todas estas características hacen de los corpus de PaCorES un recurso verdaderamente multifuncional que satisface las necesidades de una amplia variedad de usuarios. Atienden a especialistas en lingüística en campos como PLN (Procesamiento del Lenguaje Natural), lexicografía, lingüística contrastiva, estudios de traducción o enseñanza de lenguas y traducción. Además, la facilidad de uso de sus funciones de búsqueda y visualización, junto con la rapidez de recuperación, permite que la colección PaCorES se utilice como recurso didáctico en la enseñanza de idiomas y traducción. En este contexto, los estudiantes de nivel intermedio a avanzado pueden descubrir numerosas sugerencias de traducción para un término determinado, presentadas directamente a través de ejemplos de uso confiables. | |
| dc.description.peerreviewed | SI | |
| dc.description.sponsorship | Agencia Estatal de Investigación: Corpus paralelos online del español. Una herramienta multifuncional para la traduccion, el aprendizaje de lenguas y la investigacion lingüística (PaCorES). Referencia: PID2021-125313OB-I00. IP Irene Doval Reixa | |
| dc.identifier.citation | Doval Reixa, Irene, and María Teresa Sánchez Nieto. (2026). “Parallel Corpora Spanish (PaCorES): A Collection of Multifunctional Parallel Corpora.” Revista Española de Lingüística Aplicada / Spanish Journal of Applied Linguistics 39.2, pp. 1-31. John Benjamins. 32 páginas | |
| dc.identifier.doi | 10.1075/resla | |
| dc.identifier.essn | 2254-6774 | |
| dc.identifier.issn | 0213-2028 | |
| dc.identifier.uri | https://hdl.handle.net/10347/39335 | |
| dc.journal.title | Revista Española de Lingüística Aplicada / Spanish Journal of Applied Linguistics | |
| dc.language.iso | eng | |
| dc.page.final | 33 | |
| dc.page.initial | 1 | |
| dc.publisher | John Benjamins | |
| dc.relation.projectID | info:eu-repo/grantAgreement/AEI/Plan Estatal de Investigación Científica y Técnica y de Innovación 2021-2023/PID2021-125313OB-I00/ES/CORPUS PARALELOS ONLINE DEL ESPAÑOL. UNA HERRAMIENTA MULTIFUNCIONAL PARA LA TRADUCCION, EL APRENDIZAJE DE LENGUAS Y LA INVESTIGACION LINGUISTICA/ | |
| dc.relation.publisherversion | https://www.jbe-platform.com/content/journals/22546774 | |
| dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | en |
| dc.rights.accessRights | open access | |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
| dc.subject | Parallel corpora | |
| dc.subject | Bidirectional corpora | |
| dc.subject | Corpus multifunctionality | |
| dc.subject | Corpus applications | |
| dc.subject | Corpus compilation | |
| dc.subject | Corpus alignment | |
| dc.subject.classification | 5701 Lingüística aplicada | |
| dc.title | Parallel Corpora Spanish (PaCorES): A collection of multifunctional parallel corpora | |
| dc.title.alternative | Corpus paralelos del español (PaCorES): una colección de corpus paralelos multifuncionales | |
| dc.type | journal article | |
| dc.type.hasVersion | AM | |
| dc.volume.number | 39 | |
| dspace.entity.type | Publication | |
| relation.isAuthorOfPublication | 6dd6a8e2-0713-49d8-bd83-bb134192a00f | |
| relation.isAuthorOfPublication.latestForDiscovery | 6dd6a8e2-0713-49d8-bd83-bb134192a00f |
Files
Original bundle
1 - 1 of 1
Loading...
- Name:
- 2024_05_12_doval_sanchez_ pacores_resla_AM.pdf
- Size:
- 917.17 KB
- Format:
- Adobe Portable Document Format