Análisis de métricas para evaluación de sistemas de deep learning
Loading...
Identifiers
Publication date
Authors
Advisors
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
[ES] La capacidad predictiva de los sistemas deep learning orientados a problemas de regresión han sido evaluados tradicionalmente utilizando medidas clásicas basadas en la media,
como el error absoluto medio o el error cuadrático medio. Sin embargo, dichas medidas no
tienen en cuenta las distribuciones de los datos ni sus características poblacionales, lo que
puede causar una representación poco adecuada de los errores cometidos y del rendimiento
obtenido.
En este trabajo, se analizan de diferentes herramientas gráficas y diversos test de contraste
de hipótesis de tipo no paramétrico ampliamente conocidos y utilizados en la práctica para
poder evaluar las características de normalidad, simetría y multimodalidad de un conjunto
de datos. Para los distintos contrastes de hipótesis se realiza un estudio de simulación con
el objetivo de analizar su calibrado y potencia, para así seleccionar los test que estando calibrados demuestren mejor potencia. Este conjunto de métodos se utilizan posteriormente
para realizar el estudio de un caso real, en donde se analizan los resultados obtenidos por
un sistema de regresión basado en técnicas de deep learning realizado paralelamente en el
TFG en Ingeniería Informática. Dependiendo de las características de normalidad, simetría y modalidad de las distribuciones de los residuos y los errores absolutos de la red, se
seleccionará el estadístico muestral más adecuado para la evaluación de cada distribución.
El objetivo será elegir la medida más representativa a la hora de evaluar el rendimiento de
la red.
Finalmente, se aportan unas recomendaciones prácticas en donde se discuten los estadísticos muestrales más adecuados dependiendo de las características de normalidad, simetría
y modalidad detectadas en las distribuciones.
Con este trabajo se pretende mostrar la necesidad de tener en cuenta las características
poblacionales de los datos evitando suposiciones habituales como la de simetría y unimodalidad (hipótesis que cumple la distribución normal), para no llegar a conclusiones erróneas
derivadas de estas suposiciones iniciales.
[GL] A capacidade preditiva dos sistemas deep learning orientados a problemas de regresión avaliouse tradicionalmente empregando medidas clásicas baseadas na media, como o erro absoluto medio ou o erro cuadrático medio. Non obstante, estas medidas non teñen en conta a distribución dos datos nin as súas características de poboación, o que pode provocar unha representación inadecuada dos erros cometidos e do rendemento obtido. Neste traballo, analízanse e utilízanse na práctica diferentes ferramentas gráficas e varios test de contraste de hipótese non paramétricos amplamente coñecidos para avaliar as características de normalidade, simetría e multimodalidade dun conxunto de datos. Para os diferentes contrastes de hipótese, realízase un estudo de simulación co fin de analizar a súa calibración e potencia, para así seleccionar os test que estando calibrados, mostren mellor potencia. Este conxunto de métodos úsase posteriormente para realizar un estudo de caso real, onde os resultados obtidos por un sistema de regresión baseado en técnicas de deep learning son analizados en paralelo no TFG en Enxeñaría Informática. Dependendo das características de normalidade, simetría e modalidade das distribucións dos residuos e dos erros absolutos da rede, seleccionarase o estatístico da mostra máis axeitado para a avaliación de cada distribución. O obxectivo será escoller a medida máis representativa á hora de avaliar o rendemento e rede. Finalmente, ofrécense algunhas recomendacións prácticas onde se discuten os estatísticos da mostra máis axeitados en función das características de normalidade, simetría e modalidade detectadas nas distribucións. Este traballo ten como obxectivo amosar a necesidade de ter en conta as características poboacionais dos datos, evitando supostos comúns como a simetría e a unimodalidade (hipótese que cumpre coa distribución normal), para non chegar a conclusións erróneas derivadas destes supostos iniciais.
[EN] The predictive capacity of deep learning systems aimed at regression problems has traditionally been evaluated using classical measures based on the mean, such as mean absolute error or mean squared error. However, these measures do not take into account neither the data distributions nor their population characteristics, which can cause an inadequate representation of the errors committed and the performance obtained. In this work, different graphic tools and various widely known non-parametric hypothesis contrast test are analyzed and used in a practical real case in order to evaluate the characteristics of normality, symmetry and multimodality of a dataset. For the different hypothesis contrasts, a simulation study is carried out in order to analyze their calibration and power, in order to select to select the test that, being calibrated, demonstrate the best power. This set of methods is subsequently used to carry out a real case study, where the results obtained by a regression system based on deep learning techniques are analyzed in parallel at the TFG in Computer Engineering. Depending on the characteristics of normality, symmetry and modality of the distributions of the residuals and the absolute errors of the network, the most appropriate sample statistic will be selected for the evaluation of each distribution. The objective will be to choose the most representative measure when evaluating network performance. Finally, some practical recommendations are provided where the most appropriate sample statistics are discussed depending on the characteristics of normality, symmetry and modality detected in the distributions. This work aims to show the need to take into account the population characteristics of the data, avoiding common assumptions such as symmetry and unimodality (hypothesis that meets the normal distribution), so as not to reach erroneous conclusions derived from these initial assumptions.
[GL] A capacidade preditiva dos sistemas deep learning orientados a problemas de regresión avaliouse tradicionalmente empregando medidas clásicas baseadas na media, como o erro absoluto medio ou o erro cuadrático medio. Non obstante, estas medidas non teñen en conta a distribución dos datos nin as súas características de poboación, o que pode provocar unha representación inadecuada dos erros cometidos e do rendemento obtido. Neste traballo, analízanse e utilízanse na práctica diferentes ferramentas gráficas e varios test de contraste de hipótese non paramétricos amplamente coñecidos para avaliar as características de normalidade, simetría e multimodalidade dun conxunto de datos. Para os diferentes contrastes de hipótese, realízase un estudo de simulación co fin de analizar a súa calibración e potencia, para así seleccionar os test que estando calibrados, mostren mellor potencia. Este conxunto de métodos úsase posteriormente para realizar un estudo de caso real, onde os resultados obtidos por un sistema de regresión baseado en técnicas de deep learning son analizados en paralelo no TFG en Enxeñaría Informática. Dependendo das características de normalidade, simetría e modalidade das distribucións dos residuos e dos erros absolutos da rede, seleccionarase o estatístico da mostra máis axeitado para a avaliación de cada distribución. O obxectivo será escoller a medida máis representativa á hora de avaliar o rendemento e rede. Finalmente, ofrécense algunhas recomendacións prácticas onde se discuten os estatísticos da mostra máis axeitados en función das características de normalidade, simetría e modalidade detectadas nas distribucións. Este traballo ten como obxectivo amosar a necesidade de ter en conta as características poboacionais dos datos, evitando supostos comúns como a simetría e a unimodalidade (hipótese que cumpre coa distribución normal), para non chegar a conclusións erróneas derivadas destes supostos iniciais.
[EN] The predictive capacity of deep learning systems aimed at regression problems has traditionally been evaluated using classical measures based on the mean, such as mean absolute error or mean squared error. However, these measures do not take into account neither the data distributions nor their population characteristics, which can cause an inadequate representation of the errors committed and the performance obtained. In this work, different graphic tools and various widely known non-parametric hypothesis contrast test are analyzed and used in a practical real case in order to evaluate the characteristics of normality, symmetry and multimodality of a dataset. For the different hypothesis contrasts, a simulation study is carried out in order to analyze their calibration and power, in order to select to select the test that, being calibrated, demonstrate the best power. This set of methods is subsequently used to carry out a real case study, where the results obtained by a regression system based on deep learning techniques are analyzed in parallel at the TFG in Computer Engineering. Depending on the characteristics of normality, symmetry and modality of the distributions of the residuals and the absolute errors of the network, the most appropriate sample statistic will be selected for the evaluation of each distribution. The objective will be to choose the most representative measure when evaluating network performance. Finally, some practical recommendations are provided where the most appropriate sample statistics are discussed depending on the characteristics of normality, symmetry and modality detected in the distributions. This work aims to show the need to take into account the population characteristics of the data, avoiding common assumptions such as symmetry and unimodality (hypothesis that meets the normal distribution), so as not to reach erroneous conclusions derived from these initial assumptions.
Description
Traballo Fin de Grao en Matemáticas. Curso 2020-2021
Keywords
Bibliographic citation
Relation
Has part
Has version
Is based on
Is part of
Is referenced by
Is version of
Requires
Sponsors
Rights
Atribución-NoComercial-CompartirIgual 4.0 Internacional








