RT Journal Article T1 PoS-tagging the Web in Portuguese. National varieties, text typologies and spelling systems T2 Anotación morfosintáctica de la Web en portugués. Variedades nacionales, tipologías textuales y sistemas ortográficos A1 García González, Marcos A1 Gamallo Otero, Pablo A1 Gayo, Iria A1 Pousada Cruz, Miguel Ángel K1 PoS-tagging K1 Portuguese K1 Web as Corpus K1 Spelling Agreement K1 Anotación morfosintáctica K1 Portugués K1 Acordo ortográfico AB The great amount of text produced every day in the Web turned it as one of the main sources for obtaining linguistic corpora, that are further analyzed with Natural Language Processing techniques. On a global scale, languages such as Portuguese âofficial in 9 countries- appear on the Web in several varieties, with lexical, morphological and syntactic (among others) differences. Besides, a unified spelling system for Portuguese has been recently approved, and its implementation process has already started in some countries. However, it will last several years, so different varieties and spelling systems coexist. Since PoS-taggers for Portuguese are specifically built for a particular variety, this work analyzes different training corpora and lexica combinations aimed at building a model with high-precision annotation in several varieties and spelling systems of this language. Moreover, this paper presents different dictionaries of the new orthography (Spelling Agreement) as well as a new freely available testing corpus, containing different varieties and textual typologies AB La gran cantidad de texto producido diariamente en la Web ha provocadoque ésta sea utilizada como una de las principales fuentes para la obtención decorpus lingüísticos, posteriormente analizados utilizando técnicas de Procesamientodel Lenguaje Natural. En una escala global, idiomas como el portugués —oficialen 9 estados— aparecen en la Web en diferentes variedades, con diferencias léxicas,morfológicas y sintácticas, entre otras. A esto se suma la reciente aprobación de unaortografía unificada para las diferentes variedades del portugués, cuyo proceso deimplementación ya ha comenzado en varios países, pero que se prolongará todavíadurante varios años, conviviendo por lo tanto también diferentes ortografías. Unavez que los etiquetadores morfosintácticos existentes para el portugués están adaptadosespecíficamente para una variedad nacional concreta, el presente trabajo analizadiferentes combinaciones de corpus de aprendizaje y de léxicos con el fin de obtenerun modelo que mantenga una alta precisión de anotación en diferentes variedades yortografías de esta lengua. Además, se presentan diferentes diccionarios adaptadosa la nueva ortografía (Acordo Ortográfico de 1990) y un nuevo corpus de evaluacióncon diferentes variedades y tipologías textuales, disponibilizado libremente PB Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) SN 1135-5948 YR 2014 FD 2014 LK http://hdl.handle.net/10347/17695 UL http://hdl.handle.net/10347/17695 LA eng NO Garcia, M., Gamallo, P., Gayo, I., & Pousada Cruz, M. (2014). PoS-tagging the Web in Portuguese. National varieties, text typologies and spelling systems. Procesamiento Del Lenguaje Natural, 53, 95-101. Recuperado de http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5045/2933 NO This work has been supported by the hpcpln project – Ref: EM13/041 (Galician Government) and by the Celtic – Ref: 2012-CE138 and Plastic – Ref: 2013-CE298 projects (Feder-Interconnecta) DS Minerva RD 28 abr 2026