Décadas de investigación en visión artificial, una "navaja suiza”

Article
04/14/2016

Mary Bellard, izquierda, y Anne Taylor, derecha, ambas formaron parte del equipo de desarrollo de Seeing AI, avalado por décadas de investigación en visión artificial.

Cuando Anne Taylor entra en una habitación, ella quiere saber las mismas cosas que cualquier persona.

¿Dónde hay un asiento vacío? ¿Quién está caminando hacia mí y quién es esa persona sonriente? ¿Qué dice ese signo?

Para Taylor, que es ciega, no siempre son formas fáciles de obtener esta información. Tal vez otra persona le puede dirigir a su asiento, describir sus alrededores o hacer una introducción.

Hay aplicaciones y herramientas disponibles para ayudar a las personas con discapacidad visual, dijo, pero a menudo sólo sirven una función limitada y no siempre son fáciles de usar. También cabe la posibilidad de pedir ayuda a otras personas, pero la mayoría de la gente prefiere navegar por el mundo con la mayor independencia posible.

Por eso cuando Taylor llegó a Microsoft, hace casi un año, y se interesó trabajar con un grupo de investigadores e ingenieros en un proyecto al que ella se refiere, con afecto, como de un potencial de "navaja suiza" con herramientas para personas con discapacidad visual.

"Le dije: 'Vamos a hacer algo que realmente importe a la comunidad de los ciegos'", dijo Taylor a un jefe de proyecto que trabaja en la manera de hacer que los productos de Microsoft sean más accesibles. "Encontraremos una solución para un escenario que realmente importa".

El proyecto Seeing AI, una investigación que utiliza la visión artificial y procesamiento del lenguaje natural para describir el entorno a una persona, la lectura del texto, responder a las preguntas e, incluso, identificar las emociones en las caras de las personas. Seeing AI se puede utilizar como una aplicación de teléfono celular o a través de gafas inteligentes de Pivothead, hizo su debut público en la conferencia Build de la compañía. Aún no tiene una fecha de lanzamiento.

Taylor dijo que Seeing Al proporciona otra capa de información para las personas que también están usando ayuda para la movilidad, como bastones y perros guía.

"Esta aplicación ayudará a nivelar el campo de juego", dijo Taylor.

En la misma conferencia, Microsoft también dio a conocer CaptionBot, un sitio de demostración que puede tomar cualquier imagen y proporcionar una descripción detallada de la misma.

Redes neuronales profundas, el procesamiento del lenguaje natural y más

Seeing AI y CaptionBot representan los últimos avances en este tipo de tecnología, pero se basan en décadas de investigación de vanguardia en campos como la visión artificial, reconocimiento de imágenes, procesamiento del lenguaje natural y de aprendizaje automático.

En los últimos años, una serie de avances ha permitido a los investigadores de visión artificial hacer cosas que no podría haber pensado que fueran posibles, incluso unos pocos años antes.

"Algunas personas lo describirían como un milagro", dijo Xiaodong He, un alto investigador de Microsoft que está liderando el esfuerzo de subtítulos de imágenes, que forma parte de los servicios cognitivos de Microsoft. "Podemos decir que la inteligencia artificial que hemos desarrollado hoy en día es mucho mejor que hace seis años."

El campo se está moviendo tan rápido que es sustancialmente mejor que incluso hace seis meses, dijo. Por ejemplo, Kenneth Tran, un ingeniero de investigación en su equipo que dirige el esfuerzo de desarrollo, ha descubierto una manera de hacer el que sistema de imágenes de subtítulos sea 20 veces más rápido, permitiendo que las personas que utilizan herramientas para ver como Seeing IA, obtengan la información que necesitan mucho más rápido.

Un gran momento llegó hace unos años, cuando los investigadores dieron con la idea de utilizar las redes neuronales profundas, que imitan más o menos los procesos biológicos del cerebro humano, para el aprendizaje automático.

El aprendizaje automático es el término general para un proceso en el que los sistemas son mejores para hacer algo, conforme obtienen más datos de entrenamiento sobre esa tarea. Por ejemplo, si un científico de la computación quiere construir una aplicación que ayuda a los ciclistas a reconocer cuando los coches están llegando detrás de ellos, sería alimentar las toneladas de ordenador de las imágenes de coches, por lo que la aplicación aprenderá a reconocer la diferencia entre un coche y, por ejemplo, un signo o un árbol.

Los informáticos habían utilizado redes neuronales antes, pero no de esta manera y el nuevo enfoque ha dado lugar a grandes saltos en la precisión de la visión por ordenador.

Hace varios meses, los investigadores de Microsoft, Sun Jian y Kaiming He, hicieron otro gran salto cuando se dio a conocer un nuevo sistema que utiliza redes neuronales muy profundas –llamada, redes neuronales residuales– para identificar las fotos de manera correcta. El nuevo enfoque de imágenes que reconocen dio lugar a grandes mejoras en la exactitud. Los investigadores sorprendieron a la comunidad académica y ganaron dos concursos importantes, el IMAGEnet y Microsoft Common Objects in Context.

Herramientas para reconocer y describir con precisión las imágenes

Este enfoque está siendo utilizado por los investigadores de Microsoft que están trabajando en maneras de reconocer no sólo imágenes, sino también a escribir leyendas acerca de ellas. Esta investigación, que combina el reconocimiento de imágenes con el procesamiento del lenguaje natural, puede ayudar a las personas con discapacidad visual a recibir una descripción exacta de una imagen. También tiene aplicaciones para las personas que necesitan información acerca de una imagen, pero no pueden verla, por ejemplo, cuando están conduciendo.

El trabajo por la imagen de subtítulos también ha recibido reconocimientos por su precisión en comparación con otros proyectos de investigación, y es la base para las capacidades Seeing IA y Caption Bot. Ahora, los investigadores están trabajando en la ampliación del conjunto de entrenamiento por lo que pueden dar a los usuarios un sentido más profundo del mundo que les rodea.

Margaret Mitchell

Margaret Mitchell, investigadora de Microsoft que se especializa en el procesamiento del lenguaje natural, ha sido una de las principales investigadoras de la industria en la imagen de subtítulos, dijo que ella y sus colegas también están buscando la manera de que una computadora pueda describir una imagen de una manera más humana.

Por ejemplo, mientras que un equipo puede describir con precisión una escena como "un grupo de personas que están sentados uno junto al otro," una persona puede decir que es "un grupo de personas que están pasando un buen rato." El reto es ayudar a la tecnología entender lo que una persona podría pensar que era más importante, y vale la pena decir, alrededor de la imagen.

"Hay una separación entre lo que hay en una imagen y lo que decimos acerca de la imagen", dijo Mitchell, que también es uno de los conductores sobre el proyecto Seeing AI.

Otros investigadores de Microsoft están desarrollando formas en que las últimas herramientas de reconocimiento de imágenes pueden proporcionar explicaciones más completas de imágenes. Por ejemplo, en lugar de limitarse a describir una imagen como "un hombre y una mujer sentados uno junto al otro," sería más útil para la tecnología de decir, "Barack Obama y Hillary Clinton se presenta a cuadro".

Ahí es donde entra en juego Lei Zhang.

Al realizar una búsqueda en Internet de una imagen hoy en día hay muchas posibilidades de que el motor de búsqueda se base en el texto asociado con esa imagen para devolver una imagen de Kim Kardashian o Taylor Swift.

Zhang, investigador senior de Microsoft, está trabajando con investigadores, incluyendo a Yandong Guo, en un sistema que utiliza el aprendizaje automático para identificar celebridades, políticos y figuras públicas con base en los elementos de la imagen en lugar del texto asociado a él.

La investigación de Zhang se incluirá en las últimas herramientas de visión que forman parte de los servicios cognitivos de Microsoft. Eso es un conjunto de herramientas que se basa en la investigación de vanguardia del aprendizaje automático de Microsoft y que los desarrolladores pueden utilizar para construir aplicaciones y servicios que hacen cosas como reconocer las caras, identificar las emociones y distinguir varias voces. Estas herramientas también han proporcionado la base técnica para aplicaciones de Microsoft y sitios web escaparate de demostración como how-old.net, que adivina la edad de una persona, y Fetch, que puede identificar la raza de un perro.

Microsoft Cognitive Services es un ejemplo de lo que se está convirtiendo en un fenómeno más común –la transferencia veloz de los últimos avances de la investigación en productos que la gente en verdad puede utilizar. Los ingenieros que trabajan en Microsoft Cognitive Servicios dicen que su trabajo es como resolver un rompecabezas y las piezas son las últimas investigaciones.

"Todas estas piezas se unen y tenemos que averiguar, ¿cómo nos presentamos a los que un usuario final?", Dijo Chris Buehler, un gerente de ingeniería de software que trabaja en los servicios de Microsoft cognitivos.

De proyecto de investigación a producto útil

Seeing AI, el proyecto de investigación que podría ayudar a las personas con discapacidad visual, es otro ejemplo de cómo la investigación rápida puede convertirse en una herramienta útil. Se concibió el año pasado en //oneweek hackathon, un evento en el que todos los empleados de Microsoft trabajaban en conjunto para tratar de hacer que una idea loca se convierta en una realidad.

El grupo que construyó Seeing AI incluyó investigadores e ingenieros de todo el mundo que fueron atraídos por el proyecto debido a los desafíos tecnológicos y, en muchos casos, también porque tenían una razón personal para querer ayudar a que las personas con discapacidad visual se desenvuelvan con mayor independencia.

"Básicamente tuvimos este súper equipo de diferentes personas, de diferentes orígenes, trabajando para llegar a lo que se necesitaba", dijo Anirudh Koul, quien ha liderado el proyecto Seeing Al desde su creación y se interesó mucho en él porque su abuelo perdió su capacidad de ver.

Para Taylor, quien se unió a Microsoft para representar las necesidades de las personas ciegas, fue una gran experiencia que también dio lugar a un producto potencial que podría hacer una diferencia real en la vida de las personas.

"Hemos sido capaces de llegar a crear esta Navaja Suiza sumamente valiosa", dijo.

Décadas de investigación en visión artificial, una "navaja suiza”

Additional resources