|
|
|
TEXTURE RECOGNITION UNDER VARYING IMAGING GEOMETRIES.Autor: LLADÓ BARDERA XAVIER. Año: 2003. Universidad: GIRONA. Centro de lectura: ESCUELA POLITÉCNICA SUPERIOR. Centro de realización: ESCUELA POLITÉCNICA SUPERIOR. Resumen: La visión es probablemente nuestro sentido más dominate a partir del cual derivamos la mayoría de información del mundo que nos envuelve. A través de la visión percibimos como son las cosas, donde están y como se mueven.En las imágenes que percibimos con nuestro sistema de visión podemos extraer carácterísticas de color, textura y forma, y con la ayuda de esta información somos capaces de reconocer objetos incluso cuando son observados en condiciones totalmente distintas. Por ejemplo, diferentes puntos de vista del observador, distancias, condiciones de iluminación, etc. La Visión por Computador intenta emular el sistema de visión humano mediante un sistema de captura de imágenes, un ordenador y un conjunto de programas. El objetivo deseado no es otro que el de desrrollar un sistma capaz de entender una imagen de forma similar como la haría una persona. Esta tesis se centra en elanálisis de la textura par realizar el reconocimiento de superdficies.La motivación principal es resolver el problema de la clasificación de superficies texturadas cuando estas han sido capturadas bajo sistintas condiciones.En este trabajo se presenta detalladamente un sistema de reconocimiento basado en un modelo 3D de la superficie (que incluye información de color y forma)que es utilizado posteriormente para generar nuevas imágenes 2D de las texturas bajo nuevas condiciones.Estas imágenes virtuales que se generan son la base de nuestro sistema de reconocimiento, ya que se utilizan como modelos de referenia para el clasificador de texturas. El sistema de reconocimiento propuesto combina las Matrices de Coocurrencia para la extracción de caracteristicas de textura, con la utilización de un Nearest Nieghbour Classifer. Este clasificador nos permite reconocer las distintas texturas y al mismo tiempo obtener una aproximación de la dirección de la iluminación presente en las imágenes usadas para validar el sistema. Los resultados obtenidos en los distintos experimentos demuestran la viabilidad del sistema de genración de texturas, así como el sistema de reconocimiento. REPRESENTACIÓN NO-LINEAL DE IMÁGENES BASADA EN EL SISTEMA VISUAL HUMANO Y ADAPTADA A LA ESTADÍSTICA DE IMÁGENES NATURALESAutor: Valerio Cascajo Roberto. Año: 2004. Universidad: POLITÉCNICA DE MADRID. Centro de lectura: E.T.S. INGENIEROS TELECOMUNICACION. Centro de realización: E.T.S.I. Telecomunicación.
Resumen: En esta tesis desarrollamos un esquema de representación de imágenes multipropósito inspirado en el tratamiento no-lineal de información en el sistema visual humano. Para ello partimos de los trabajos de Simoncelli y colaboradores que mostraron que las etapas primarias de este proceso, consistentes en una etapa de filtrado lineal multiescala (Gabor, wavelet, etc.) seguida por una normalización divisiva no-lineal, podrían dar lugar a respuestas neuronales estadísticamente independientes, lo cual es una propiedad muy deseable en una representación de imagen. Eltrabajo realizado ha consistido en un primer lugar en un análisis sistemático del modelo propuesto por estos autores, y una formulación rigurosa utilizando la información mutua (IM) como métrica de la dependencia estadística. Como resultado, hemos demostrado que las respuestas predichas por dicho modelo no son totalmente estadísticamente independientes entre sí, sino que, sorprendentemente, las salidas resultan ser independientes de casi todas las entradas. Aunque hemos visto que no es posible conseguir una independización completa entre respuestas vecinas, hemos encontrado que en la práctica la condición de mínimo de la IM resulta ser muy próxima a cero. Tras este análisis, hemos resuelto de forma aproximada el problema de optimizar los parámetros libres del modelo, esto es, calcular los valores que minimizan la dependencia estadística (IM) entre respuestas vecinas. Para ello se ha particularizado la expresión general para un modelo gaussiano, que hemos verificado previamente de forma empírica con un conjunto de imágenes naturales. El esquema de representación de imágenes resultante es extraordinariamente robusto y flexible, por lo que admite diversas modificaciones subóptimas que mejoran alguna de sus características para aplicaciones que lo requieran. Todo ello ha quedado patente de forma empírica a través de las correspondientes implementaciones y resultados numéricos. Una vez estudiada e implementada la normalización divisiva, una de las aportaciones clave ha sido resolver el problema de la inversión de la transformación no-lineal. Para ello se ha propuesto e implementado un esquema directamente invertible, que puede obtenerse relajando ligeramente la condición de independencia estadística impuesta inicialmente. Al quedar resuelta la invertibilidad, el esquema de representación ya puede considerarse multipropósito, con claras ventajas dadas su mayor relevancia y compatibilidad perceptual y la independencia estadística entre muestras vecinas. Nosotros nos hemos centrado en dos aplicaciones concretas: (1) desarrollo de una métrica perceptual de la calidad de imagen y (2) inclusión de la etapa no-lineal de un codec JPEG 2000 para mejorar la calidad visual de la reconstrucción. FORMULACIÓN DE LOS CONTORNOS ACTIVOS EN EL DOMINIO DE LA FRECUENCIA Y ANÁLISIS DE CONVERGENCIA EN SEGMENTACIÓN DE IMAGEN.Autor: VERDÚ MONEDERO RAFAEL. Año: 2005. Universidad: POLITÉCNICA DE CARTAGENA. Centro de lectura: POLITÉCNICA DE CARTAGENA.. Centro de realización: ANTIGUO HOSPITAL DE MARINA, CAMPUS MURALLA DEL MAR UPCT. Resumen: Los contornos activos paramétricos, o snakes, son un caso particular de los modelos deformables embebidos en el plano de la imagen. Sus fundamentaos matemáticos representan la confluencia de la Geometría, Física y teoría de la Aproximación. Desde su debut en 1987, la utilidad de las snakes ha sido probada y demostrada en análisis de imágenes médicas, en segmentación de imagen, en seguimiento de objetos móviles en secuencias de vídeo, etc. Un problema importante por resolver es el comportamiento dinámico de la snake cuando evoluciona hacia su solución final de equilibrio. Este análisis de la convergencia es particularmente necesario cuando el funcional que gobierna el contorno activo depende de parámetros o características, generalmente no lineales, internas y externas al contorno como fuerzas de inflado y estirado dependientes de la propia estructura. En el diseño de comportamiento dinámico total es necesario controlar la definición del funcional de energía para garantizar que la realimentación existente no de lugar a comportamientos inestables. En esta Tesis doctoral se ha revisado la formulación de los contornos activos en el dominio espacial, incluyendo los modelos paramétricos, los modelos adaptables a la topología y los basados en conjuntos de nivel (level sets). Se han descrito los problemas que presenta la implementación clásica de los contornos activos (sensibilidad a la inicialización, robustez frente al ruido, selectividad en la segmentación y seguimiento de objetos, condición de parada en el procedimiento iterativo, etc) y las posibles soluciones actuales que se encuentran el el estado de la técnica. La formulación espacial de los modelos deformables se ha trasladado al dominio de la frecuencia y se ha utilizado para analizar la velocidad de convergencia. A partir de esta análisis se proporciona un método con las reglas de diseño de los parámetros dinámicos óptimos de un contorno activo durante la segmentación de objetos en imágenes. El método de diseño de parámetros dinámicos óptimos del contorno activo ha sido probado en aplicaciones de segmentación y seguimiento de objetos en secuencias de imágenes para acelerar la velocidad de convengencia de la emph{snake}. El método se ha incorporado en la implementación de movimiento, caracterización mecánica de músculos artificiales y en el filtrado de los vectores de movimiento en un método de registro no rígido mediante modelos deformables. La principal contribución de esta tesis es el análisis de la velocidad de convergencia de los contornos activos paramétricos y un método para establecer los valores de sus parámetros dinámicos que controlan la evolución del contorno en un problema de segmentación de imágenes. Otra contribución de esta Tesis es la traslación de la formulación clásica de los modelos deformables, en el dominio espacial , al dominio de la frecuencia, ofreciendo un nuevo punto de vista para el diseño y análisis de éstos. La extensión del análisis realizado al caso de superficies deformables para acelerar su velocidad de convergencia, así como la exportación de las ideas planteadas en el análisis para su aplicación en técnicas de conjuntos de nivel, constituyen las principales líneas futuras de investigación. VLSI ARCHITECTURE FOR MOTION ESTIMATION IN UNDERWATER IMAGING.Autor: Ila Viorela Simona. Año: 2005. Universidad: GIRONA. Centro de lectura: Universidad de Girona. Centro de realización: Universidad de Girona. Resumen: El trabajo desarrollado en esta tesis aporta soluciones innovadoras en el campo del tratamiento de imágenes submarinas. En este entorno, la tarea de procesamiento de imágenes es complejo por la falta de contornos bien definidos debido a la borrosidad de las imágenes, por una parte, y a la necesidad de un sistema de iluminación artificial que produce una iluminación no uniforme. La estimación del movimiento del vehículo y su localización son dos problemas fundamentales en robótica submarina. Una manera de solucionar estos problemas es mediante el uso de un sistema de visión por computador. Los sistemas de visión se caracterizan por su alta resolución, bajo coste y por el hecho de proporcionar una gran cantidad de información. La estimación del movimiento se hace a partir las correspondencias entre dos imágenes adquiridas por una cámara montada en el vehículo y orientada hacia el fondo marino. Las correspondencias se pueden obtener utilizando técnicas de "matching". En esta tesis se propone un algoritmo que permite detectar correspondencias entre imágenes consecutivas en tiempo real. Las dos aportaciones principales de esta tesis son, por un lado, un método que mejora el algoritmo de "matching" dotándolo de mayor robusteza, y por otro, la implementación en hardware del algoritmo con la finalidad de obtener una ejecución en tiempo real. Desde el punto de vista algorítmico, la tesis propone la utilización de características de textura para eliminar falsas correspondencias (denominadas "outliers") entre dos imágenes mejorando la robustez del algoritmo de "matching" y permitiendo mejorar los resultados del algoritmo de estimación del movimiento que es muy sensitivo a las falsas correspondencias. La técnica propuesta en esta tesis se ha obtenido mediante un amplio estudio con un gran número de experimentos para seleccionar el operador de textura más adecuado para el tratamiento de imágenes submarinas. En comparación con los métodos ya existentes, la nueva propuesta tiene un coste computacional muy inferior y elimina la necesidad de una estimación a priori del movimiento. Para realizar la implementación del algoritmo de detección de correspondencias en hardware se ha diseñado una arquitectura paralela que acelera la ejecución con el propósito de obtener un rendimiento correspondiente a la velocidad de vídeo. El diseño de la arquitectura ha sido realizado basándose en un estudio elaborado de arquitecturas VLSI utilizadas para la estimación de movimiento en aplicaciones multimedia de codificación de vídeo. En el caso particular de las imágenes subacuáticas, se ha determinado que es necesario un criterio de correlación basado en una medida de similitud más compleja, teniendo en cuenta el valor medio de las intensidades correspondientes a cada punto. Este criterio se denomina "Mean Normalised Cross Correlation" y tiene la ventaja de ser robusto en el caso de una iluminación no uniforme. La propuesta de implementación realizada consta de dos partes principales: por un lado de un algoritmo en hardware para seleccionar puntos de interés en tiempo real; y por otro lado de una arquitectura paralela para detectar las correspondencias entre puntos que pertenecen a imágenes consecutivas. La verificación de la implementación se ha realizado utilizando plataformas basadas en dispositivos reprogramables FPGA. La arquitectura propuesta se caracteriza tanto por su alta flexibilidad, permitiendo el cambio de los parámetros, como por su gran eficacia en relación recursos/tiempo de ejecución. NUEVAS CONTRIBUCIONES EN REPRESENTACIONES SOBRECOMPLETAS DE IMÁGENES INSPIRADAS POR LA ARQUITECTURA FUNCIONAL DE LA CORTEZA VISUAL PRIMARIAAutor: Fischer Sylvain. Año: 2006. Universidad: POLITÉCNICA DE MADRID. Centro de lectura: E.T.S. DE INGE. DE TELECOMUNICACION. Centro de realización: ESCUELA TECNICA SUPERIOR INGENIEROS TELECOMUNICACIÓN.
Resumen: La presente tesis doctoral tiene como objetivo indagar en algunos paralelismos entre la arquitectura funcional de las áreas visuales primarias y el tratamiento de imágenes. Un primer objetivo consiste en mejorar los modelos existentes de visión biológica basándose en la teoría de la información. Un segundo es el desarrollo de nuevos algoritmos de tratamiento de imágenes inspirados de la visión natural. Los datos disponibles sobre el sistema visual abarcan estudios fisiológicos y psicofísicos, psicología Gestalt y estadísticas de las imágenes naturales. La tesis se centra principalmente en las representaciones sobrecompletas (i.e. representaciones que incrementan la dimensionalidad de los datos) por las siguientes razones. Primero porque permiten sobrepasar importantes desventajas de las transformaciones ortogonales; segundo porque los modelos de visión biológica necesitan a menudo ser sobrecompletos y tercero porque construir representaciones sobrecompletas eficientes involucra problemas matemáticos relevantes y novedosos, en particular el problema de las aproximaciones dispersas. La tesis propone primero una transformación en ondículas log-Gabor auto-inversible inspirada del campo receptivo y la organización en multiresolución de las células simples del cortex visual primario (V1). Esta transformación ofrece resultados prometedores para la eliminación del ruido. En segundo lugar, las interacciones observadas entre las células de V1 que consisten en la inhibición lateral y en la facilitación entre células alineadas se han mostrado eficientes para extraer los bordes de las imágenes naturales. En tercer lugar, la redundancia introducida por la transformación sobrecompleta se reduce gracias a un algoritmo dedicado de aproximación dispersa el cual construye una representación dispersa de las imágenes sobre la base de sus bordes. Para una decorrelación adicional y para conseguir más altas tasas de compresión, los bordes alineados a lo largo de contornos continuos están codificado de manera predictiva por cadenas de coeficientes, lo que ofrece una representacion eficiente de los contornos. Finalmente se presenta un estudio sobre el cierre de contornos utilizando la metodología de tensor voting. Proponemos el uso de iteraciones y de la información de curvatura para mejorar la robustez y la calidad perceptual de los métodos existentes. NUEVAS CONTRIBUCIONES EN FUSIÓN Y COMPRESIÓN DE IMÁGENES BASADAS EN REPRESENTACIONES ESPACIO-FRECUENCIALESAutor: Redondo Tejedor Rafael. Año: 2006. Universidad: POLITÉCNICA DE MADRID. Centro de lectura: ETSI TELECOMUNICACIÓN. Centro de realización: ETSI Telecomunicación. Resumen: Las representaciones conjuntas han experimentado un notable apogeo durante las últimas décadas, hasta tal punto que no hay campo en el procesamiento de señales en el que no hayan sido utilizadas. Dentro del mar de representaciones existentes en la literatura, una de ellas concierne el presente trabajo: la implementación log-Gabor propuesta en [70, 68]. Su bajo solapamiento, alta sensibilidad en orientación y escalabilidad, invarianza a traslación, auto-invertibilidad y la definición compleja confieren eficiencia, versatilidad y robustez contra el ruido y la aparición de artefactos. Más allá, el estrecho parecido de los filtros sobrecompletos log-Gabor con el área cortical V1 junto con el modelado de comportamientos neuronales de inhibición/facilitación y codificación escasa permiten conseguir una approximación de la imagen basada en la extracción de los rasgos más salientes normalmente coindidentes con los contornos. Este tipo de representación, basada en contornos multiescala, traza una nueva ruta para resolver taréas de procesamiento de imágenes, en concreto, compresión y fusión de imágenes. Un nuevo paradigma de compresión postula una alta eficiencia si los rasgos característicos de las imágenes son codificados separadamente, tales como luminancia, contornos o textura [19, 145, 240]. Siguiendo ese paradigma, en esta tesis doctoral se ha propuesto un nuevo método de compresión basado en codificar dichos contornos multiescala extraídos de la transformación escasa log-Gabor. Teniendo en cuenta la naturaleza de tales rasgos, un algoritmo de codificación de cadenas ha sido especialmente diseñado según las peculiaridades estocásticas y morfológicas de dichos contornos. Para ello, diferentes técnicas predictivas así como códigos prefjos y aritméticos han sido combinados de acuerdo con cada alfabeto. Además, el algoritmo propuesto ofrece un completo esquema de compresión incluyendo la codificación del residuo paso-bajo y la colocación de cabezeras de la trama. Tal codificación se fundamenta en modelos del cortex visual primario para mitigar distorsiones de compresión típicamente producidas por los estandars de compresión JPEG ó JPEG2000. Las descomposiciones multiresolución han demostrado su superioridad contra otras técnicas tradicionales de fusión de imágenes. Sin embargo, no existe ninguna evidencia de hegemonia, a menudo debido a la falta de una imagen de referencia. En esta tesis, varios tipos de wavelets son comparadas con log-Gabor filters exitosamente, los cuales nunca habían sido utilizados anteriormente debido a su tradicional falta de reconstrución exacta. Además, un algoritmo general para esquemas multiresolución llamado ventanas multitamaño ha sido propuesto, el cual adapta el tamaño de ventana a los rasgos locales en la imagen explotando las ventajas de ambas ventanas, pequeña o precisa y grande o robusta, reduciendo notablemente los errores en los mapas de decisión en contra de las tradicionales técnicas de tamaño fijo de ventana. Finalmente, un nuevo método orientado a contornos ha sido también propuesto incorporando los contornos multiescala al esquema de fusión multiresolución. Este algoritmo basado en rasgos reduce la sensibiliad al ruido, efectos de emborronamiento y artefactos de alineamiento. MODEL-BASED VISUAL LOCALISATION OF CONTOURS AND VEHICLESAutor: PONSA MUSSARRA DANIEL. Año: 2006. Universidad: AUTÓNOMA DE BARCELONA. Centro de lectura: ESCOLA TÈCNICA SUPERIOR D'ENGINYERIA. Centro de realización: ESCOLA TÈCNICA SUPERIOR D'ENGINYERIA (ETSE-UAB). ROBUST STATISTICS AND DATA DENSITY TECHNIQUES FOR COMPRESSED VIDEO AND 3D LADAR IMAGE ANALYSIS.Autor: Felip Rodríguez Ramon Lluís. Año: 2006. Universidad: AUTÓNOMA DE BARCELONA. Centro de lectura: Escola Tecnica Superior d'Enginyeries. Centro de realización: Universidad Autónoma de Barcelona.
Resumen: La mayoria de situaciones que se afrontan mediante técnicas de Visión por Computador deben tratar con conjuntos de datos que estan contaminados por ruido y que contienen un número elevado de elementos que se pueden considerar erróneos respecto a los resultados deseados. Este hecho es aun más evidente cuando se trata de estimar una descripción paramétrica de los elementos para describir los datos. Técnicas capaces de trabajar con elementos afectador por errores y ruido son necesarias en estos casos. La estadística robusta y los algoritmos basados en densidades de datos estan diseñados para resolver este tipo de problemas y permitir la estimacion de modelos paramétricos fiables aunque los datos presenten errores. Esta tesis presenta el desarrollo de nuevos algoritmos de estiamación de parámetros y técnicas relacionadas asi como la aplicación de algoritmos clásicos y nuevas propuestas en tareas de Visión por Computador que tratan con datos contaminados. Concretamente, esta tesis propone nuevas técnicas para analizar secuencias de vídeo en el dominio MPEG y para procesar imagenes LADAR aéreas utilizando estadística robusta y técnicas basades en densidades de datos.
|
|
|