Investigadores de Microsoft ganan IMAGEnet, el desafío de visión artificial



Jian Sun, gerente de investigación en Microsoft Research, dirigió el proyecto de interpretación de imágenes. Foto: Craig Tuschhoff/Microsoft.

Los investigadores de Microsoft anunciaron un gran avance en la tecnología diseñada para identificar los objetos en una fotografía o un vídeo, que muestra un sistema que cumple y, a veces, supera la precisión del ser humano.

El enfoque de Microsoft en el reconocimiento de  imágenes también obtuvo el primer lugar en varias categorías principales del desafío de reconocimiento de imágenes el pasado jueves, superando a muchos otros competidores, instituciones empresariales y de investigación académica en el IMAGEnet y Microsoft Common Objects in Context Challenge.

Al igual que muchos otros investigadores en este campo, Microsoft se basó en un método llamado redes neuronales profundas para entrenar a equipos para reconocer las imágenes. Su sistema fue más eficaz, ya que les permitió utilizar redes neuronales, que son hasta cinco veces más profundas que las utilizadas de forma previa.

Los investigadores reconocieron que no estaban seguros de que este nuevo enfoque tendría éxito - hasta que lo tuvo.

"Incluso no creímos que esta sola idea podría ser tan significativa", dijo Jian Sun, gerente principal de investigación de Microsoft Research, quien dirigió el proyecto de interpretación de imágenes, junto con sus compañeros de equipo Kaiming He, Xiangyu Zhang y Shaoqing Ren en laboratorio de investigación de Microsoft Beijing.

El gran salto en la precisión sorprendió a otros también. Peter Lee, vicepresidente corporativo a cargo de Microsoft Research Next Labs, dijo que se sorprendió al ver un avance tan importante.

"De alguna manera destruye algunos de los supuestos que yo había estado haciendo sobre el funcionamiento de las redes neuronales profundas", dijo.

Los concursos, organizados por investigadores de las mejores universidades y corporaciones, han sido en los últimos años un barómetro del éxito de la explosión de la investigación en este campo.

En IMAGEnet Challenge, el equipo de Microsoft ganó el primer lugar en las tres categorías que participó: clasificación, localización y detección. Su sistema fue mejor que los otros participantes por un amplio margen.

En Microsoft Common Objects in Context Challenge, también conocidos como MS COCO, el equipo de Microsoft ganó el primer lugar para la detección de imágenes y segmentación. El proyecto MS COCO fue financiado originalmente por Microsoft y comenzó como una colaboración entre Microsoft y algunas universidades, pero ahora está a cargo de académicos que no son de Microsoft.

Una investigación de largo a plazo y un avance reciente

Durante décadas, los científicos en computación han tratado de formar a los sistemas informáticos para hacer cosas como reconocer imágenes y comprender el habla, pero hasta hace poco esos sistemas estaban plagados de imprecisiones.

Luego, hace unos cinco años, los investigadores dieron con la idea de utilizar una tecnología llamada redes neuronales, que se inspira en los procesos biológicos del cerebro. Las propias redes neuronales no eran nuevas, pero el método de uso de ellas sí lo era, lo que resultó en grandes saltos en la precisión en el reconocimiento de imágenes.

El sistema también resultó muy exitoso para el reconocimiento de discurso y ha sido la base de la capacidad de traducción en tiempo real en Skype Translator.

Las redes neuronales son construidas en una serie de capas. En teoría, más capas deben conducir a mejores resultados, pero en la práctica un gran reto ha sido que las señales se desvanecen en la medida que pasan a través de cada capa, llevando eventualmente a las dificultades en la formación de todo el sistema.

Sun dijo que los investigadores estaban emocionados cuando podrían entrenar con éxito un sistema de "red neuronal profunda" con ocho capas de hace tres años y estuvieron encantados cuando una "red neuronal muy profunda", con entre 20 a 30 capas fue entregada como parte de los  resultados del año pasado.

Pero él y su equipo pensaron que podrían ir aún más profundo. Durante meses, jugaron con diversas maneras de agregar más capas y aun así obtener resultados precisos.

Después de mucho ensayo y error, los investigadores dieron con un sistema que llamaron "redes residuales profundas."

El sistema de red residual profunda que utilizaron para el concurso IMAGEnet tiene 152 capas - cincos veces más que cualquier sistema del pasado - y utiliza un nuevo principio de "aprendizaje residual" para guiar a los diseños de arquitectura de red.

El aprendizaje residual reformula el procedimiento de aprendizaje y redirige el flujo de información en las redes neuronales profundas. Eso ayudó a los investigadores a resolver el problema de la precisión que ha perseguido tradicionalmente intentos de construir redes neuronales muy profundas.

Transferencia de conocimiento

Una ventaja clave de las redes neuronales es que consiguen mejores resultados en una tarea cuando se les da otra. Por ejemplo, con el traductor de Skype, una red neuronal que está diseñada para traducir del inglés al alemán, mejora en la traducción alemana, una vez que ha sido entrenado para la tarea adicional de la traducción china.

Sun dijo que su equipo obtuvo resultados similares cuando probaron sus redes neuronales residuales antes de las dos competiciones. Después investigadores utilizaron el sistema para las tareas de clasificación en el reto IMAGEnet, encontraron que era significativamente mejor en los otros tres indicadores: la detección, localización y segmentación.

"Lo que aprendimos de nuestras redes extremadamente profundas es tan poderoso y genérico que puede mejorar sustancialmente muchas otras tareas de visión", dijo Sun

Los investigadores creyeron que verían un efecto similar si se utiliza el mismo principio para otros problemas, tales como el reconocimiento de voz.

Ellos ya utilizan estos nuevos avances para ayudar a mejorar las herramientas de Microsoft Project Oxford, que ayudan a los desarrolladores a crear aplicaciones más inteligentes para cosas como el habla y reconocimiento de imágenes. También están trabajando de manera estrecha con los grupos de productos de Microsoft para incluir la mejor interpretación de imágenes de productos y servicios existentes o futuros de Microsoft.

Nada de esto significa que las computadoras son cada vez más inteligentes que los seres humanos, de una manera general. Los investigadores dicen que lo que muestra es que las computadoras están mejorando en tareas muy estrechas, como la identificación de imágenes en una base de datos.

Aun así, tiene grandes implicaciones en cómo las computadoras podrían ayudar a la gente en cualquier número de formas, como el reconocimiento de la diferencia entre un árbol y un coche en la vista lateral espejo o la frustrante tarea de clasificación de cosas específicas a través de fotos específicas, como un gran cuadro de su perro.

"No creemos que ya estamos cerca de la última mejora del sistema en precisión de la clasificación de datos para cualquiera de estas tareas", dijo Lee.

Skip to main content