Proyecto de Microsoft Research puede interpretar y titular fotos


Reconocimiento y encabezado de imagenes 01

Felix Hernández de los Marineros Seattle, hace un lanzamiento contra los Azulejos de Toronto. Los investigadores de Microsoft trabajan en tecnología que puede identificar lo sucede en una foto. (Foto por Tom Szczerbowski / Getty Images)

Si navegan por la web y se cruzan con una foto de Felix Hernández, de los Marinos, parado en el montículo del pitcher en el campo Safeco, es probable que interpreten de manera rápida que se trata de un jugador de béisbol en el campo listo para hacer un lanzamiento.

Ahora, ya existe la tecnología que también puede hacer eso.

Los investigadores de Microsoft están en el camino de desarrollar una tecnología que puede identificar de manera automática los objetos en una foto, interpretar la acción y escribir un encabezado preciso que lo explique.

Esa es una herramienta importante por sí misma. Pero la capacidad de que una máquina describa de manera correcta la acción de la foto, también tiene implicaciones más amplias para ayudar a que Microsoft avance en su trabajo general en el campo de la inteligencia artificial, o el desarrollo de sistemas que pueden ver, escuchar hablar, e incluso entender.

“La máquina ha sido entrenada para entender cómo es que un humano comprende la imagen”, comentó Xiaodong He, investigador del Deep Learning Technology Center de Microsoft Research, y una de las personas que trabajan en el proyecto.

Por ejemplo, cuando ven una foto de un hombre sentado en frente de una computadora, la tecnología para encabezar la imagen puede reconocer de manera precisa que debe enfocarse en describir el hombre del primer plano, no la imagen en la computadora del fondo, y debido a que el hombre tiene vello facial, también reconoce que se trata de un hombre y no una mujer.

Por décadas, los investigadores han buscado las posibilidades de crear sistemas que pudieran interpretar y titular fotos con precisión. Pero hasta hace unos años, la mayoría de los sistemas que estaban siendo desarrollados no lo entendían, dijo Margaret Mitchell, una investigadora del grupo dedicado al procesamiento del lenguaje natural en Microsoft Research, quien también trabaja en la tecnología.

Eso cambió cuando los investigadores tuvieron la idea de usar redes neurales, las cuales son elementos de cómputo que son modelados con libertad frente al cerebro humano, para conectar la visión con el lenguaje. Con esa tecnología, los sistemas empezaron a entenderlo más seguido y los márgenes de error han bajado desde entonces.

“Básicamente pasó de no trabajar a trabajar gracias a las redes neurales”, dijo Mitchell.

Los encabezados automatizados en las imágenes aún no son perfectos, pero se han vuelto un área de investigación importante de manera rápida, con expertos de universidades y laboratorios corporativos de investigación que compiten por descubrir el mejor algoritmo para los encabezados automáticos en las imágenes.

Las más reciente competencia para crear los encabezados más informativos y precisos, MS COCO Captioning Challenge 2015, terminó hace unos días.

A lo largo de la competencia, un tablero de clasificación ha estado al tanto del trabajo que los equipos han hecho con ayuda de varias medidas técnicas, y la califica con base en quién crea los mejores resultados en la actualidad. Los mejores desempeños tendrán sus resultados evaluados por jueces humanos en la conferencia de visión de cómputo CVPR a principios de junio.

Reconocimiento y encabezado de imagenes 02

1. Detectar palabras: mujer, multitud, gato, cámara, sostener, gente

2. Generar oraciones: Una cámara morada con una mujer. Una mujer sostiene una cámara dentro en una multitud… Una mujer sostiene un gato.

3. Re-clasificar oraciones: #1 Una mujer sostiene una cámara dentro de una multitud.

Todos los competidores usan una base de datos de imágenes, llamada Microsoft COCO, el cual fue desarrollado por los investigadores de Microsoft y otras instituciones de investigación. El reto es crear el mejor algoritmo generar encabezados por medio de esa base de datos.

El algoritmo de Microsoft está entrenado para escribir un encabezado de manera automática, a través de varios pasos.

Primero, predice las palabras que son más comunes de aparecer en el encabezado, a través de lo que se llama una red neural convulsional, para reconocer lo que hay en la imagen.

La red neural convulsional es estrenada con muchos ejemplos de imágenes y encabezados, y de manera automática aprende características como los parches de color, formas y otras. Eso es muy parecido a la manera en la que el cerebro humano identifica los objetos.

Siguiente, utiliza un modelo de lenguaje para tomar ese grupo de palabras y crear posibles encabezados coherentes.

“Lo crítico es que el modelo de lenguaje genera texto condicionado en la información de la imagen”, menciona Geoffrey Zweig, quien dirige el grupo de investigación de habla y diálogo de Microsoft Research.

Por último, utiliza un verificador que mide la semántica general de similitud entre el encabezado y la imagen, para elegir el mejor encabezado posible.

Mientras que la tecnología continúa mejorando, los investigadores dicen que ven vastas posibilidades en cuanto a la forma en la que este tipo de herramientas podrían ser utilizadas para obtener ganancias significativas en el campo de la inteligencia artificial, en el cual, las computadoras son capaces de tener un comportamiento inteligente en una era con más cómputo personal.

“Queremos conectar la visión con el lenguaje porque queremos tener herramientas de inteligencia artificial” dijo Mitchell.

Él, el investigador de aprendizaje profundo, dijo que la tecnología podría servir como una pieza de la fundación para tener herramientas de IA mucho más sofisticadas, tales como un aumentado y universal sistema inteligente que estaría de manera constante con ustedes, para aprender acerca de ustedes y el mundo que los rodea, y así poder ayudarlos con lo que necesitan.

La gente ha esperado esos tipos de capacidades por mucho tiempo.

“Ahora, estamos optimistas por verlos convertirse en realidad en un futuro no tan lejano”, dijo él.

 

Contenido relacionado

De encabezados a conceptos visuales y de regreso.

Xiaodong He de Microsoft, habló acerca del trabajo de encabezados de imagen de Microsoft en un taller, el cual se realizó en la conferencia de visión de cómputo CVPR. También lo pueden seguir en Twitter.

Para más información acerca del trabajo de reconocimiento de imágenes de Microsoft, pueden escuchar a Harry Shum, Vicepresidente Ejecutivo de Tecnología e Investigación de Microsoft, discutir sobre la “Revolución Invisible” en Ignite.

Skip to main content