Investigadores de Microsoft aceleran la precisión en la visión de cómputo y mejoran los modelos de escaneo en 3D

Article
06/09/2015

Es probable que ya hayan escuchado acerca de la tecnología de Microsoft que puede identificar de manera automática objetos en una imagen y escribir un encabezado preciso para ellos, aunque este tipo de avances de investigación no ocurren de la nada.

Es cierto, la investigación interdisciplinaria que combina la visión de cómputo, aprendizaje de máquinas, inteligencia artificial, sistemas de cómputo y redes, son solo algunas de las áreas de investigación de Microsoft en el núcleo del campo floreciente, referido comúnmente como “aprendizaje profundo”. Los avances en la tecnología de aprendizaje profundo son fundamentales en la misión de Microsoft para impulsar a cada persona y organización del planeta para lograr más.

El aprendizaje profundo también es fundamental para un grupo de investigación que se presentará esta semana en la 28° Conferencia IEEE sobre Visión de Cómputo y Patrones de Reconocimiento (CVPR) en Boston.

El último avance incluye mejoras dramáticas de velocidad, las cuales aceleran la visión de cómputo para el reconocimiento de imágenes y nuevos algoritmos que mejoran la claridad de las imágenes escaneadas en 3D con ayuda de Kinect o sensores de Kinect.

En Redes Neuronales Convulsionales en Costo de Tiempo Restringido (324 KB .pdf), Kaiming He, director de investigación y Jian Sun, investigador principal, comentan sobre el problema del consumo de tiempo de cómputo requerido por los continuos avances en la visión de cómputo para la precisión en la clasificación de imágenes. Los modelos propuestos por ellos son más rápidos y precisos que los modelos rápidos que ya existen, además de ser prácticos para el uso común.

Sun y He también colaboraron con los investigadores de la Universidad de Xi’an Jiaotong en Aproximaciones de Eficiencia y Precisión de las Redes Convulsiónales No lineales (541 KB .pdf), el cual propone un método que acelera dichas redes hasta cuatro veces, con un margen de error de menos del uno por ciento.

En CVPR, los investigadores de Microsoft también presentarán avances en la digitalización y escaneo en 3D con ayuda de Kinect y de los sensores de Kinect.

En Reconstrucción de Superficies Libres a Gran Escala (9.6MB .pdf), el investigador Jonathan Taylor junto con los investigadores principales Andrew Fitzgibbon y Shahram Izadi, colaboraron con los investigadores de la Universidad de Bologna para introducir un método de escaneo en 3D a gran escala que estime en minutos y no horas, y que trabaje incluso en condiciones con poca luz, u otras condiciones desafiantes, tales como completa oscuridad.

“Como se muestra en el cuerpo de trabajo del CVPR, Kinect ha acelerado la investigación en el escaneo en 3D hasta el punto donde hoy, incluso capturar modelos de escenas de movimiento, o escenas a gran escala es posible”, dijo Izadi.

Los investigadores de Microsoft también presentan nuevas investigaciones que mejoran de manera significativa el escaneo de objetos en movimiento. En Escaneo de Objetos Deformables con un Sensor RGBD Sencillo(10.1 MB .pdf), Taylor, Fitzgibbon e Izadi colaboraron con investigadores de la Universidad de Carolina del Norte en Chapel Hill para desarrollar un método de escaneo que solo utiliza un sencillo sensor de Kinect sin el brusco movimiento de la cámara del usuario.

“El siguiente paso lógico es usar estos modelos para el reconocimiento, y juntar el mundo del aprendizaje profundo con el de la reconstrucción” añadió Izadi. “Esto nos acerca un poco más a las computadoras que entienden al usuario y a su ambiente, en formas mucho más ricas”.

Investigación adicional presentada en la 28° Conferencia IEEE en Visión de Cómputo y Patrones de Reconocimiento

Aprender un Modelo Eficiente en la Variación de la Forma de la Mano desde Imágenes Profundas (1.9MB .pdf) En el que contribuyen Sameh Kharnis, Jonathan Taylor, Jamie Shotton, Cem Keskin, Shahram Izadi y Andrew Fitzgibbon, Investigadores de Microsoft, para un nuevo método de escaneo humano de manos para generar modelos genéricos poco dimensionales, con ayuda del aprendizaje de máquinas.

Explotar la Incertidumbre en Bosques de Regresión para Relocalización Precisa de la Cámara (875KB .pdf). Donde contribuyen los investigadores de Microsoft: Jamie Shotton, Andrew Fitzgibbon y Shahram Izadi. Presenta un nuevo método que mejora la relocalización de la cámara hasta un 40% con más cuadros que en la actualidad.

Un modelo de Transporte Ligero para Mitigar la Interferencia de la Multitrayectoria en los Sensores de los Tiempos de Vuelo (3.0 MB .pdf) Donde contribuyen los investigadores de Microsoft: Nikhil Naik, Christoph Rhemann, Shahram Izadi, Sing Bing Kang. Presentan un método para corregir la interferencia en la multitrayectoria en los tiempos de vuelo basados en los sensores de Kinect en la cámara del Xbox One, con ayuda de una nueva técnica de cómputo para la cámara.

Recuperación Acotada Computacional (522 KB .pdf) Donde contribuyen los investigadores de Microsoft: Cem Keskin, Pushmeet Kohli, Shahram Izadi. Un nuevo método para la recuperación en la búsqueda de imágenes que muestra mejoras en la precisión y velocidad sobre los métodos actuales.

Un Método Geodésico de Preservación para el Pandeo de Imágenes (8.41 MB .pdf) Donde contribuyen los investigadores de Microsoft: Kaiming He, Jian Sun. Un nuevo método que mejora la calidad visual de las imágenes panorámicas y de gran angular.

Regresión Encausada por la Postura de la Mano (1.1 MB .pdf) Donde contribuyen los investigadores de Microsoft: Yichen Wei, Jian Sun. Un nuevo acercamiento que demuestra el rastreo preciso y de alta velocidad de la mano con ayuda de sensores de consumo de profundidad.

Aprendizaje de Redes Neuronales Convulsionales para la Eliminación de Movimiento Desenfocado no Uniforme (9.4 MB .pdf). Donde contribuye el investigador de Microsoft: Jian Sun. Propone un profundo aprendizaje basado en la corrección de las imágenes desenfocadas de manera no uniforme.

Proyecciones Escasas para Códigos Binarios de Alta Dimensión (304KB .pdf) Donde contribuyen los investigadores de Microsoft: Yan Xia, Kaiming He, Pushmeet Kohli y Jian Sun. Un nuevo método que incrementa la precisión y velocidad de la recuperación y clasificación de imágenes por orden de magnitud.

Funciones Convulsionales Cubiertas para Objetos Conjuntos y Segmentación de Artículos (2.8MB .pdf) En el que contribuyen los investigadores de Microsoft: Jifeng Dai, Kaiming He, Jian Sun. Un nuevo método que demuestra lo último dentro del reconocimiento de objeto y su etiquetado a máxima velocidad.

Refinamiento Global de Bosque Aleatorio (627 KB .pdf) Donde contribuyen los investigadores de Microsoft: Xudong Cao, Yichen Wei, Jian Sun. Propone dos nuevos métodos dentro del aprendizaje de máquinas, refinamiento global y monda global. Ambos mejoran de gran manera la precisión y reducen las necesidades de almacenamiento para un método de aprendizaje de bosque aleatorio.

Campo de Iluminación con Capas Mate (2.7MB .pdf) Donde contribuye el investigador: Rick Szeliski. Aplica una técnica de “mateo” para limpiar y dar forma a imágenes que contengan un fondo oscuro, como la foto de un ave fuera de una ventana sucia.

Investigadores de Microsoft aceleran la precisión en la visión de cómputo y mejoran los modelos de escaneo en 3D

Additional resources