Comparing two Basic Methods for Discriminating Between Similar Languages and Varieties

Gamallo Otero, Pablo; Pichel, José Ramom; Alegria Loinaz, Iñaki; Agirrezabal, Manex

Comparing two Basic Methods for Discriminating Between Similar Languages and Varieties

Files

2016_coling_gamallo-pichel_comparing.pdf (129.95 KB)

Identifiers

URI: https://hdl.handle.net/10347/45043

Publication date

2016-12-12

Authors

Gamallo Otero, Pablo

Pichel, José Ramom

Alegria Loinaz, Iñaki

Agirrezabal, Manex

Publisher

The COLING 2016 Organizing Committee

Metrics

Export

Abstract

This article describes the systems submitted by the Citius Ixa Imaxin team to the Discriminating Similar Languages Shared Task 2016. The systems are based on two different strategies: classification with ranked dictionaries and Naive Bayes classifiers. The results of the evaluation show that ranking dictionaries are more sound and stable across different domains while basic bayesian models perform reasonably well on in-domain datasets, but their performance drops when they are applied on out-of-domain texts.

Keywords

Language Identification

Bibliographic citation

Pablo Gamallo, Iñaki Alegria, José Ramom Pichel, and Manex Agirrezabal. 2016. Comparing Two Basic Methods for Discriminating Between Similar Languages and Varieties. In Proceedings of the Third Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial3), pages 170–177, Osaka, Japan. The COLING 2016 Organizing Committee.

Publisher version

https://aclanthology.org/W16-4822/

Rights

Attribution 4.0 International

Collections

Electrónica e Computación
Centro de Investigación en Tecnoloxías Intelixentes da USC (CiTIUS)

Full item page

Comparing two Basic Methods for Discriminating Between Similar Languages and Varieties

Files

Identifiers

Publication date

Authors

Advisors

Tutors

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Metrics

Export

Research Projects

Organizational Units

Journal Issue

Abstract

Description

Keywords

Bibliographic citation

Relation

Has part

Has version

Is based on

Is part of

Is referenced by

Is version of

Requires

Publisher version

Sponsors

Rights

Collections