Análisis de métricas para evaluación de sistemas de deep learning

Lorenzo Ramberde, Andrés

Análisis de métricas para evaluación de sistemas de deep learning

Files

Lorenzo_Ramberde_Andrés.pdf (1.74 MB)

Identifiers

URI: http://hdl.handle.net/10347/28921

Publication date

2021-07

Authors

Lorenzo Ramberde, Andrés

Tutors

Crujeiras Casais, Rosa María

Carreira Nouche, María José

Vila Blanco, Nicolás

Metrics

Export

Abstract

[ES] La capacidad predictiva de los sistemas deep learning orientados a problemas de regresión han sido evaluados tradicionalmente utilizando medidas clásicas basadas en la media, como el error absoluto medio o el error cuadrático medio. Sin embargo, dichas medidas no tienen en cuenta las distribuciones de los datos ni sus características poblacionales, lo que puede causar una representación poco adecuada de los errores cometidos y del rendimiento obtenido. En este trabajo, se analizan de diferentes herramientas gráficas y diversos test de contraste de hipótesis de tipo no paramétrico ampliamente conocidos y utilizados en la práctica para poder evaluar las características de normalidad, simetría y multimodalidad de un conjunto de datos. Para los distintos contrastes de hipótesis se realiza un estudio de simulación con el objetivo de analizar su calibrado y potencia, para así seleccionar los test que estando calibrados demuestren mejor potencia. Este conjunto de métodos se utilizan posteriormente para realizar el estudio de un caso real, en donde se analizan los resultados obtenidos por un sistema de regresión basado en técnicas de deep learning realizado paralelamente en el TFG en Ingeniería Informática. Dependiendo de las características de normalidad, simetría y modalidad de las distribuciones de los residuos y los errores absolutos de la red, se seleccionará el estadístico muestral más adecuado para la evaluación de cada distribución. El objetivo será elegir la medida más representativa a la hora de evaluar el rendimiento de la red. Finalmente, se aportan unas recomendaciones prácticas en donde se discuten los estadísticos muestrales más adecuados dependiendo de las características de normalidad, simetría y modalidad detectadas en las distribuciones. Con este trabajo se pretende mostrar la necesidad de tener en cuenta las características poblacionales de los datos evitando suposiciones habituales como la de simetría y unimodalidad (hipótesis que cumple la distribución normal), para no llegar a conclusiones erróneas derivadas de estas suposiciones iniciales.
[GL] A capacidade preditiva dos sistemas deep learning orientados a problemas de regresión avaliouse tradicionalmente empregando medidas clásicas baseadas na media, como o erro absoluto medio ou o erro cuadrático medio. Non obstante, estas medidas non teñen en conta a distribución dos datos nin as súas características de poboación, o que pode provocar unha representación inadecuada dos erros cometidos e do rendemento obtido. Neste traballo, analízanse e utilízanse na práctica diferentes ferramentas gráficas e varios test de contraste de hipótese non paramétricos amplamente coñecidos para avaliar as características de normalidade, simetría e multimodalidade dun conxunto de datos. Para os diferentes contrastes de hipótese, realízase un estudo de simulación co fin de analizar a súa calibración e potencia, para así seleccionar os test que estando calibrados, mostren mellor potencia. Este conxunto de métodos úsase posteriormente para realizar un estudo de caso real, onde os resultados obtidos por un sistema de regresión baseado en técnicas de deep learning son analizados en paralelo no TFG en Enxeñaría Informática. Dependendo das características de normalidade, simetría e modalidade das distribucións dos residuos e dos erros absolutos da rede, seleccionarase o estatístico da mostra máis axeitado para a avaliación de cada distribución. O obxectivo será escoller a medida máis representativa á hora de avaliar o rendemento e rede. Finalmente, ofrécense algunhas recomendacións prácticas onde se discuten os estatísticos da mostra máis axeitados en función das características de normalidade, simetría e modalidade detectadas nas distribucións. Este traballo ten como obxectivo amosar a necesidade de ter en conta as características poboacionais dos datos, evitando supostos comúns como a simetría e a unimodalidade (hipótese que cumpre coa distribución normal), para non chegar a conclusións erróneas derivadas destes supostos iniciais.
[EN] The predictive capacity of deep learning systems aimed at regression problems has traditionally been evaluated using classical measures based on the mean, such as mean absolute error or mean squared error. However, these measures do not take into account neither the data distributions nor their population characteristics, which can cause an inadequate representation of the errors committed and the performance obtained. In this work, different graphic tools and various widely known non-parametric hypothesis contrast test are analyzed and used in a practical real case in order to evaluate the characteristics of normality, symmetry and multimodality of a dataset. For the different hypothesis contrasts, a simulation study is carried out in order to analyze their calibration and power, in order to select to select the test that, being calibrated, demonstrate the best power. This set of methods is subsequently used to carry out a real case study, where the results obtained by a regression system based on deep learning techniques are analyzed in parallel at the TFG in Computer Engineering. Depending on the characteristics of normality, symmetry and modality of the distributions of the residuals and the absolute errors of the network, the most appropriate sample statistic will be selected for the evaluation of each distribution. The objective will be to choose the most representative measure when evaluating network performance. Finally, some practical recommendations are provided where the most appropriate sample statistics are discussed depending on the characteristics of normality, symmetry and modality detected in the distributions. This work aims to show the need to take into account the population characteristics of the data, avoiding common assumptions such as symmetry and unimodality (hypothesis that meets the normal distribution), so as not to reach erroneous conclusions derived from these initial assumptions.

Description

Traballo Fin de Grao en Matemáticas. Curso 2020-2021

Rights

Atribución-NoComercial-CompartirIgual 4.0 Internacional

Collections

Grao en Matemáticas

Full item page

Análisis de métricas para evaluación de sistemas de deep learning

Files

Identifiers

Publication date

Authors

Advisors

Tutors

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Metrics

Export

Research Projects

Organizational Units

Journal Issue

Abstract

Description

Keywords

Bibliographic citation

Relation

Has part

Has version

Is based on

Is part of

Is referenced by

Is version of

Requires

Sponsors

Rights

Collections