Clustering basado en modelos

dc.contributor.authorGómez Sánchez del Valle, Nuria
dc.contributor.tutorAmeijeiras Alonso, José
dc.date.accessioned2026-04-16T16:47:13Z
dc.date.available2026-04-16T16:47:13Z
dc.date.issued2025-07
dc.description71 páxs
dc.description.abstractEl clustering es una técnica estadística no supervisada que busca identificar automáticamente grupos homogéneos de observaciones dentro de un conjunto de datos. Su utilidad se ha consolidado en múltiples disciplinas, especialmente en el contexto actual de generación masiva de datos, gracias a su capacidad para identificar grupos en datos complejos y de alta dimensión. Aunque tradicionalmente se han utilizado métodos heurísticos como k-medias o técnicas jerárquicas, estos enfoques presentan limitaciones, como la falta de una base teórica sólida o la dificultad para determinar el número óptimo de grupos. En contraste, el clustering basado en modelos (Model-Based Clustering, MBC) ofrece una alternativa estadísticamente fundamentada al modelar los datos como una mixtura finita de distribuciones de probabilidad. Este enfoque permite realizar inferencias rigurosas, seleccionar modelos apropiados, elegir el número de grupos de manera justificada y evaluar la incertidumbre en la asignación de observaciones. En este trabajo, se presentan los fundamentos teóricos del clustering basado en modelos, con un enfoque en los modelos de distribuciones gaussianas, que son los más utilizados, así como el algoritmo EM para la estimación de parámetros y criterios de selección de modelos, incluyendo la elección del número de clústeres. Además, se presentan ejemplos prácticos utilizando el paquete mclust en R.
dc.description.abstractO clustering é unha técnica estatística non supervisada que busca identificar automaticamente grupos homoxéneos de observacións dentro dun conxunto de datos. A súa utilidade consolidouse en múltiples disciplinas, especialmente no contexto actual de xeración masiva de datos, grazas á súa capacidade para identificar grupos en datos complexos e de alta dimensión. Aínda que tradicionalmente empregábanse métodos heurísticos como k-medias ou técnicas xerárquicas, estes enfoques presentan limitacións, como a falta dunha base teórica sólida ou a dificultade para determinar o número óptimo de grupos. Pola contra, o clustering baseado en modelos (Model-Based Clustering, MBC) ofrece unha alternativa estatisticamente fundamentada ao modelar os datos como unha mestura finita de distribucións de probabilidade. Este enfoque permite realizar inferencias rigorosas, seleccionar modelos axeitados, elixir o número de grupos de maneira xustificada e avaliar a incerteza na asignación de observacións. Neste traballo, preséntanse os fundamentos teóricos do clustering baseado en modelos, cun enfoque nos modelos de distribucións gaussianas, que son os máis empregados, así como o algoritmo EM para a estimación de parámetros e criterios de selección de modelos, incluíndo a elección do número de clústeres. Ademais, preséntase exemplos prácticos utilizando o paquete mclust en R.
dc.description.abstractClustering is an unsupervised statistical technique that aims to automatically identify homogeneous groups of observations within a dataset. Its usefulness has been consolidated across various disciplines, particularly in the current context of massive data generation, thanks to its ability to identify groups in complex and high-dimensional data. Although heuristic methods such as k-means or hierarchical techniques have traditionally been used, these approaches present limitations, such as the lack of a solid theoretical foundation or the difficulty in determining the optimal number of groups. In contrast, model-based clustering (MBC) offers a statistically grounded alternative by modeling the data as a finite mixture of probability distributions. This approach allows for rigorous inferences, the selection of appropriate models, justifiable determination of the number of groups, and the evaluation of uncertainty in the assignment of observations. This work presents the theoretical foundations of model-based clustering, with a focus on Gaussian mixture models, which are the most widely used, as well as the EM algorithm for parameter estimation and model selection criteria, including the choice of the number of clusters. Additionally, practical examples are presented using the mclust package in R.
dc.identifier.urihttps://hdl.handle.net/10347/46752
dc.language.isospa
dc.rightsAttribution-NonCommercial-ShareAlike 4.0 Internationalen
dc.rights.accessRightsopen access
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/4.0/
dc.titleClustering basado en modelos
dc.typebachelor thesis
dspace.entity.typePublication
relation.isTutorOfPublication0fcf8811-8071-4723-a1cb-b61c69e517b8
relation.isTutorOfPublication.latestForDiscovery0fcf8811-8071-4723-a1cb-b61c69e517b8

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Gomez_clustering_basado_en_modelos.pdf
Size:
7.75 MB
Format:
Adobe Portable Document Format