Blanqueado adaptativo de escalas espacio-temporales como mecanismo computacional de atención visual dinámica
Loading...
Identifiers
Publication date
Authors
Tutors
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Prácticamente todos los individuos del reino animal que poseen sistemas visuales evolucionados, controlan la dirección de su mirada mediante
los movimientos de la cabeza, los ojos y el cuerpo. Debido al aumento de
las prestaciones de los actuales sistemas de seguimiento oculares podemos
acceder a la información de la dirección de la mirada, lo cual nos ofrece una
ventana hacia la comprensión del sistema interno de control de la atención.
Con el fin de dotar a los sistemas artficiales de una habilidad semejante a la atención visual selectiva de los humanos, en la última década, se
han dedicado múltiples esfuerzos al desarrollo de modelos computacionales
de saliencia, que han sido destinados principalmente a simplficar el coste
computacional de las aplicaciones de visión artficial. La obtención de un sistema artficial capaz de simular los mecanismos de atención presentes en los
humanos, presenta un enorme potencial ya que las tareas de atención visual
son aplicables a campos muy diversos.
A lo largo de este trabajo se presenta un modelo computacional de atención visual selectiva cuya metodología se enmarca dentro de las técnicas
bottom-up. Este modelo, al que hemos denominado AWSD, es capaz de detectar la saliencia tanto sobre imágenes estáticas como en vídeo.
La idea básica sobre la que se sustenta el modelo AWSD es que la saliencia, tanto estática como dinámica, se produce en aquellos puntos donde la
energía local espacio-tiempo posee la máxima desviación respecto a la distribución media de esta característica en un espacio multiescala. La energía
local constituye un estadístico de alto orden que concentra gran cantidad de
la información perceptualmente relevante. Para acceder a ella, el modelo utiliza el blanqueado como un mecanismo muy simple que condensa parte de las
implicaciones de la hipótesis de Barlow. Utilizamos el modelo para predecir
las fijaciones de observadores humanos sobre seis bases de datos de vídeos
públicas, así como su capacidad para reproducir el comportamiento humano
en experimentos psicofísicos (pop-out dinámicos).
Los resultados demuestran la superioridad del AWS-D frente a varios modelos del estado del arte en saliencia dinámica y apuntan a que el modelo
puede contener las bases de mecanismos clave en la saliencia visual. En la
evaluación experimental, se adaptó la metodología más aceptada para imágenes estáticas a vídeo, combinándola con un test de permutación para obtener
información adicional sobre la signficación estadística de las medidas en cada
instante temporal
Description
Bibliographic citation
Relation
Has part
Has version
Is based on
Is part of
Is referenced by
Is version of
Requires
Sponsors
Rights
Esta obra atópase baixo unha licenza internacional Creative Commons BY-NC-ND 4.0. Calquera forma de reprodución, distribución, comunicación pública ou transformación desta obra non incluída na licenza Creative Commons BY-NC-ND 4.0 só pode ser realizada coa autorización expresa dos titulares, salvo excepción prevista pola lei. Pode acceder Vde. ao texto completo da licenza nesta ligazón: https://creativecommons.org/licenses/by-nc-nd/4.0/deed.gl








