Máster en Tecnoloxías de Análise de Datos Masivos: Big Data

Permanent URI for this collectionhttps://hdl.handle.net/10347/23926

Browse

Now showing 1 - 8 of 8

Análise de estratexias de aprendizaxe federada robustas a datos heteroxéneos
(2025-07-15) Martínez Enríquez, Roi; Universidade de Santiago de Compostela. Escola Técnica Superior de Enxeñaría; Iglesias Rodríguez, Roberto; García Polo, Francisco Javier
A aprendizaxe federada (AF) permite adestrar modelos de forma descentralizada sen compartir datos sensibles, mais sofre importantes limitacións en contextos con datos heteroxéneos. Os algoritmos tradicionais tenden a fallar na xeneralización global ou na personalización local. Este traballo presenta FLProtector, un marco dual no que cada cliente aprende un incremento local sobre un modelo global compartido, e decide dinamicamente que modelo utilizar en inferencia mediante un autoencoder adestrado localmente para detectar entradas fóra de distribución. Ademais, FLProtector incorpora un mecanismo de agregación robusto baseado na consistencia de gradientes, que atenúa a influencia de clientes con actualizacións que se desvían do rumbo global agardado. A proposta é avaliada baixo distintos niveis de heteroxeneidade no benchmark Digit-Five, mostrando melloras consistentes fronte métodos clásicos e de personalización do estado da arte, logrando un equilibrio efectivo entre personalización e xeneralización. O sistema mantén o seu rendemento incluso ante clientes estritamente maliciosos, e o estudo por capas confirma a relevancia de cada unha das súas compoñentes. Por último, a proposta salienta por non requerir unha sintonización sensible de hiperparámetros, o que facilita a súa aplicabilidade en escenarios reais
Desarrollo de un modelo de predicción de cancelaciones de reservas en el sector turístico
(2024-07-01) Fabello Quintana, Noel; Universidade de Santiago de Compostela. Escola Técnica Superior de Enxeñaría; Comesaña García, Alejandra; Sánchez Vila, Eduardo; Freire Martínez, Ignacio
En la industria hotelera, la incertidumbre producida por las cancelaciones de reservas dificulta la previsión de disponibilidad en el establecimiento, lo cual produce pérdidas significativas de beneficios. En este proyecto se lleva a cabo un estudio profundo sobre los patrones de anulación de reservas para Eurostars Hotel Company, utilizando métodos avanzados de Big Data para limpiar, transformar y analizar grandes volúmenes de datos históricos. A partir del conocimiento obtenido, se desarrolla un conjunto de modelos de detección de cancelaciones y se discute su rendimiento atendiendo tanto a cuestiones técnicas como de negocio. Una vez seleccionado el mejor modelo, se compara con un clasificador implementado por una empresa externa. Finalmente, se diseña una herramienta visual que facilita al personal del sector el análisis de las predicciones, permitiendo la elaboración de estrategias efectivas para mitigar el impacto de las cancelaciones y la estimación del beneficio aportado por la aplicación de las mismas.
Focused Crawling and Model Evaluation in the field of Conversational Agents and Motivational Interviewing
(2023-07) Rosenova Tsakova, Gergana; Universidade de Santiago de Compostela. Departamento de Electrónica e Computación; Losada Carril, David Enrique; Fernández Pichel, Marcos
The exploitation of Motivational Interviewing concepts when analysing individuals’ speech contributes to gaining valuable insights into their perspectives and attitudes towards behaviour change. The scarcity of labelled user data poses a persistent challenge and impedes technical advancements in research in non-English language scenarios. To address the limitations of manual data labelling, we propose a semisupervised learning method as a means to augment an existing training corpus. Our approach leverages machine-translated user-generated data sourced from social media communities and employs self-training techniques for annotation. We conduct an evaluation of multiple classifiers trained on various augmented datasets. To that end, we consider diverse source contexts and employ different effectiveness metrics. The results indicate that this weak labelling approach does not yield significant improvements in the overall classification capabilities of the models. However, notable enhancements were observed for the minority classes. As part of future work, we propose to enlarge the datasets only with new examples from the minority classes. We conclude that several factors, including the quality of machine translation, can potentially bias the pseudo-labelling models. The imbalanced nature of the data and the impact of a strict pre-filtering threshold are other important aspects that need to be taken into account.
Extendiendo una plataforma Big Data multilenguaje para su aplicación a la Bioinformática
(2021-07) Muiño Argüelles, Gonzalo; Universidade de Santiago de Compostela. Escola Técnica Superior de Enxeñaría; Pichel Campos, Juan Carlos; Fernández Pena, Anselmo Tomás
En los últimos años, la cantidad de información digital recopilada se ha incrementado de forma significativa en numerosos campos como la biología, la física, la economía y la medicina, dando lugar a lo que llamamos la era del Big Data. Tal ha sido este crecimiento que se han creado nuevos frameworks específicos para gestionar el almacenamiento y posterior análisis de toda esta información y que facilitan el desarrollo de aplicaciones para el procesamiento de estas cantidades masivas en un tiempo razonable haciendo uso de clusters de computadores. Entre estos frameworks destaca Apache Spark que, a pesar de ser una de las herramientas más utilizadas del ámbito de Big Data, tiene limitaciones considerables, entre las cuales destaca la necesidad de hacer uso de determinados lenguajes de programación como Scala, Java, Python o R, requiriendo un esfuerzo significativo de conversión para poder aplicarlo a programas escritos en otros lenguajes de programación. Para solventar este problema se ha desarrollado Ignis, un nuevo framework Big Data que, a través del uso de RPC’s, permite la utilización de múltiples lenguajes de programación para conseguir la utilización del paradigma map-reduce. En este trabajo realizaremos una comparación entre Spark e Ignis, analizando el esfuerzo necesario para realizar el portado de aplicaciones de Spark a Ignis, comparando su escalabilidad y realizando una valoración final de ambos frameworks. Nos hemos centrado en aplicaciones de bioinformática, en concreto de genética, ámbito en el que, en los últimos, han aparecido soluciones basadas en tecnologías Big Data para resolver el problema del procesamiento de la enorme cantidad de datos de genoma proporcionados por los secuenciadores de última generación.
Framework para la construcción y despliegue de sistemas de procesamiento en tiempo real
(2018-06) Martínez Castaño, Rodrigo; Universidade de Santiago de Compostela. Escola Técnica Superior de Enxeñaría; Pichel Campos, Juan Carlos; Losada Carril, David Enrique
En los últimos años se han desarrollado numerosas tecnologías destinadas al procesamiento de datos masivos, muchas de ellas de código abierto y de uso libre. Estas plataformas se centran en la escalabilidad horizontal, lo que implica que para el procesamiento de una mayor cantidad de datos sin grandes distorsiones en el ritmo, no es necesario aumentar o actualizar los recursos de una máquina (escalabilidad vertical), sino que es su ficiente con añadir más nodos con similares características a un clúster. La proliferación de este tipo de tecnologías de código abierto han democratizado y condicionado el gran número de aplicaciones que hacen uso de estas plataformas en multitud de ámbitos, tanto profesionales como académicos. Centrándonos en los frameworks de procesamiento, nos encontramos con una importante limitación: los datos han de poder dividirse en grupos independientes, de tal modo que sea posible paralelizar el trabajo en diferentes máquinas aunque existan puntos de procesamiento secuencial. Existen dos grandes tipos de tecnologías de procesamiento de este tipo: procesamiento de lotes (batch processing) y procesamiento de flujos (stream processing). En el primer caso, los resultados finales se obtienen juntos al fi nalizar el procesamiento del lote de datos compuesto por una o más etapas. Para de finir el trabajo a realizar, se define una topología de procesamiento que indica el flujo de los datos a través de las distintas etapas. Cada nodo (físico o virtual) puede ejecutar una instancia de la topología (aislada del resto de instancias), repartiéndose los datos de forma equitativa entre las instancias existentes. En las tecnologías de procesamiento de flujos, las distintas etapas de una topología son independientes y no pertenecen a una instancia concreta. Por tanto, las distintas etapas pueden ser paralelizadas de forma individual sin aumentar el grado de paralelismo de toda la topología. Estas tecnologías son adecuadas para aplicaciones que obtienen información en tiempo real y deben dar una respuesta inmediata, ya que cuando un dato completa su camino a través de las distintas etapas, el resultado puede obtenerse de forma instantánea. Sin embargo, con el procesamiento de lotes los resultados se obtienen cuando un lote de datos es procesado por completo. Un caso de aplicación de procesamiento en tiempo real es el análisis de contenidos en redes sociales para la detección temprana de riesgos. Este será el objetivo principal de este proyecto.
Detección de Objetos con Asociación de Datos Embebida
(2020) Mallo Antelo, Jaime; Universidade de Santiago de Compostela. Escola Técnica Superior de Enxeñaría; Brea Sánchez, Víctor Manuel; Mucientes Molina, Manuel
El tracking visual de objetos está en pleno auge debido a sus numerosas aplicaciones, entre las que se encuentran los vehículos autónomos o la videovigilancia. En esta tarea se busca precisión a la par que velocidad siendo un requisito indispensable el funcionamiento en tiempo real. En este campo, una tendencia rompedora ha sido la introducción de detectores basados en aprendizaje profundo capaces de plantear hipótesis sobre la posición de los objetos de interés a la par que proposiciones de vectores de características, conocidos como embeddings, para los diferentes objetos identificados, orientados a la asociación de detecciones a lo largo del tiempo, soluciones que detectan y siguen objetos con una única red neuronal convolucional. Como respuesta a la necesidad de mejorar la capacidad discriminativa de estos vectores de características, entre objetos con identidades diferentes, en este TFM se plantea la integración de un autoencoder en una red de detección con embeddings. Con esta arquitectura es posible reducir la dimensionalidad y eliminar el ruido de los embeddings, potenciando la capacidad discriminativa de estos mediante la reformulación de las características de interés. El sistema propuesto ha sido evaluado en los conjuntos de datos de referencia para tracking mostrando mejora en rendimiento sin descuidar la velocidad de ejecución, permitiendo su funcionamiento en tiempo real.
Reconstrucción 3D densa de escenas utilizando una cámara monocular
(2017) Cores Costa, Daniel; Universidade de Santiago de Compostela. Escola Técnica Superior de Enxeñaría; Mucientes Molina, Manuel
La reconstrucción 3D densa de escenas es de gran interés tanto para la navegación de robots como para el modelado 3D de objetos o la realidad aumentada. En este artículo se describe la arquitectura de un sistema capaz de generar una reconstrucción 3D densa del entorno utilizando una cámara monocular. Para ello se ha implementado un algoritmo de estéreo basado en movimiento capaz de calcular un mapa de profundidad en cada imagen para su posterior integración en un mapa denso. La utilización de una cámara monocular permite evitar las desventajas en cuanto al rango y las condiciones de funcionamiento de otros tipos de sensores como las cámaras RGB-D o los pares estéreo. El sistema propuesto ha sido validado tanto en conjuntos de datos sintéticos en escenas interiores como en entornos reales exteriores.
Tracking visual de mútiples objetos con redes convolucionales profundas
(2019) Vaquero Otal, Lorenzo; Universidade de Santiago de Compostela. Escola Técnica Superior de Enxeñaría; Mucientes Molina, Manuel; Brea Sánchez, Víctor Manuel
El tracking visual de objetos posee un gran interés en multitud de aplicaciones como la robótica o la videovigilancia. No obstante, mientras que estos campos demandan sistemas capaces de seguir múltiples objetos en tiempo real, gran parte de la investigación en visión por computador se centra en el tracking de un único elemento. Como respuesta a esta necesidad, en este artículo se presenta la arquitectura de un sistema capaz de aplicar eficientemente técnicas de tracking individual a múltiples objetos en tiempo real. Para esto, se propone la extracción global de las características del fotograma mediante una red neuronal convolucional, seguida de un recorte de las distintas áreas de búsqueda de los objetos. La operación de similaridad entre las citadas áreas de búsqueda y la referencia de los objetos a seguir se puede llevar a cabo tanto con una correlación cruzada como mediante una subred de propuestas de regiones. El sistema propuesto ha sido evaluado en distintos conjuntos de datos, reportando tasas de precisión y robustez muy competitivas a la par que alcanza velocidades superiores a las de cualquier otro tracker de múltiples objetos basado en aprendizaje profundo

Browse

Recent Submissions