Investigadores de Microsoft construyen un bot que dibuja lo que le pidas

Si les pasan una nota en la que les piden dibujar un ave con cuerpo amarillo, alas negras y pico corto, es probable que empiecen con un esquema general de un ave, luego revisen la nota, vean la parte amarilla y busquen una pluma de ese color para rellenar el cuerpo, van a leer la nota de nuevo y buscarán una pluma negra para dibujar las alas y, después de una revisión final, acorten el pico y lo definan con un destello luminoso.

Ahora ya existe un bot que también puede hacer eso.

La nueva tecnología de inteligencia artificial que se encuentra en desarrollo en los laboratorios de investigación de Microsoft está programada para poner especial atención a palabras individuales cuando se generan imágenes a partir de descripciones en texto de tipo pie de foto. Este enfoque deliberado produjo un incremento casi del triple en la calidad de la imagen comparado con la anterior técnica de vanguardia para la generación de texto a imagen, de acuerdo con resultados de una prueba de estándares de la industria reportados en un documento de investigación publicado en arXiv.org.

La tecnología, que los investigadores llaman de manera sencilla el bot dibujante, puede generar imágenes de cualquier cosa, desde escenas pastorales comunes, como pastoreo de ganado, a lo absurdo, como como un autobús de doble piso flotante. Cada imagen contiene detalles que están ausentes de las descripciones en texto, lo que indica que esta inteligencia artificial contiene imaginación artificial.

“Si van a Bing y buscan un ave, obtienen la imagen de un ave. Pero aquí, las imágenes son creadas por una computadora, pixel por pixel, desde cero”, comentó Xiaodong He, investigador principal y gerente de investigación en el Centro Deep Learning Technology, en el laboratorio de investigación de Microsoft en Redmond Washington. “Tal vez estas aves no existan en el mundo real – son sólo un aspecto de lo que nuestra computadora imagina de las aves”.

El bot dibujante cierra un círculo de investigación alrededor de la intersección de la visión de computadora y el procesamiento natural de lenguaje que él y sus colegas han explorado en el último lustro. Comenzaron con tecnología que de manera automática escribe pies de foto – conocida como CaptionBot – y luego se movieron a una tecnología que responde preguntas que los seres humanos hacen sobre imágenes, tales como la ubicación o atributos de objetos, que pueden ser de especial ayuda para la gente con ceguera.

Estos esfuerzos de investigación requieren que modelos de entrenamiento en aprendizaje automático identifiquen objetos, interpreten acciones y conversen en lenguaje natural.

“Ahora queremos utilizar el texto para generar la imagen”, comentó Qiuyuan Huang, investigador de post-doctorado en el grupo de He y co-autor de un documento. “Así que, es un ciclo”.

La generación de imágenes es una tarea más retadora que la subtitulación de imágenes, agregó Pengchuan Zhang, investigador asociado en el equipo, debido a que el proceso requiere que el bot dibujante imagine detalles que no están en el pie de foto. “Esto significa que ustedes necesitan que sus algoritmos de aprendizaje automático corran inteligencia artificial para imaginar algunas partes faltantes de la imagen”, mencionó.

Cuidadosa generación de imágenes

En el centro del bot dibujante de Microsoft se encuentra una tecnología conocida como Generative Adversarial Network, o GAN. La red consiste en dos modelos de aprendizaje automático, uno que genera imágenes a partir de descripciones en texto y otro, conocido como discriminador, que utiliza las descripciones en texto para juzgar la autenticidad de las imágenes generadas. El generador busca pasar imágenes falsas a través del discriminador; el discriminador no quiere ser engañado nunca. Con ese trabajo en conjunto, el discriminador empuja al generador hacia la perfección.

El bot dibujante de Microsoft fue entrenado por medio de conjuntos de datos que contienen imágenes y pies de foto emparejadas, lo que permite a los modelos aprender cómo emparejar palabras con la representación visual de las mismas. Por ejemplo, el GAN, aprende a generar la imagen de un ave cuando un pie de foto dice ave y, del mismo modo, aprende cómo debería verse una imagen de un ave. “Esa es una razón fundamental por la que creemos que una máquina puede aprender”, comentó He.

GAN trabaja bien cuando genera imágenes de descripciones simples en texto como un ave azul o un árbol siempre verde, pero la calidad se estanca con descripciones de texto más complejas como un ave con una corona verde, alas amarillas y pecho rojo. Esto es debido a que todo el enunciado sirve como una sola entrada para el generador. La información detallada de la descripción está perdida. Como resultado, la imagen generada es un ave borrosa con algo de verde, amarillo y rojo en lugar de algo más cercano a la descripción.

Cuando una persona dibuja, toma como referencia de manera repetida el texto y presta especial atención a las palabras que describen la región de la imagen que van a dibujar. Para capturar esta característica humana, los investigadores crearon lo que se conoce como GAN de atención, o AttnGAN, que representa de manera matemática el concepto humano de atención. Esto lo realiza al romper el texto de entrada en palabras individuales y emparejar esas palabras con regiones específicas de la imagen.

“La atención es un concepto humano; utilizamos matemáticas para que la atención sea computacional”, explicó He.

El modelo también aprende desde los datos de entrenamiento lo que los humanos llaman sentido común, y toma de esta noción aprendida para llenar detalles de las imágenes que son dejados a la imaginación. Por ejemplo, debido a que muchas imágenes de aves en los datos de entrenamiento muestran a las aves sentadas en ramas, el AttnGAN por lo general dibuja aves sentadas en ramas a menos que el texto especifique otra cosa.

“A partir de los datos, el algoritmo de aprendizaje automático aprende este sentido común de a qué lugar debería pertenecer el ave”, comentó Zhang. A manera de prueba, el equipo alimentó al bot dibujante con pies de fotos para imágenes absurdas, como “autobús rojo de doble piso que flota en un lago”. Esto generó una imagen borrosa y rara que da la impresión de ser tanto un bote con dos cubiertas o un autobús de doble piso en un lago rodeado de montañas. La imagen sugiere que el bot tuvo una lucha interna entre su conocimiento de que los botes flotan en lagos y la especificación en texto del autobús.

“Podemos controlar lo que describimos y ver cómo reacciona la máquina”, explicó He. “Podemos hurgar y probar lo que aprendió. La máquina tiene algo de sentido común aprendido como contexto, pero aún puede seguir lo que le pides y tal vez, en ocasiones, puede parecer un poco ridículo”.

Aplicaciones prácticas

La tecnología de generación de texto a imagen podría encontrar aplicaciones prácticas que actúen como una especie de asistente de bocetos para pintores y diseñadores de interiores, o como una herramienta para el refinamiento de foto activada por voz. Con más poder de cómputo, He imagina que la tecnología podría generar películas animadas basadas en libretos y aumentar el trabajo que los cineastas de animación realizan al remover algo de la labor manual involucrada en el proceso

Por ahora, la tecnología es imperfecta. Una examinación cercana de las imágenes casi siempre revela alguna falla, como aves con pico azul en lugar de negro y fruteros con plátanos mutantes. Estas fallas son una clara indicación de que una computadora, y no un humano, creó las imágenes. No obstante, la calidad de las imágenes del AttnGAN presentan una mejora casi del triple sobre el mejor GAN previo y sirve como un logro en el camino hacia una inteligencia de tipo humana genérica que aumente las capacidades humanas, de acuerdo con He.

“Para que la IA y los seres humanos vivan en el mismo mundo, deben tener una manera de interactuar entre ellos”, explicó He. “Y el lenguaje y la visión son las dos modalidades más importantes para que los humanos y las máquinas interactúen entre sí”.

Además de Xiaodong He, Pengchuan Zhang y Qiuyuan Huang en Microsoft, entre los colaboradores se encuentran los ex becarios de Microsoft Tao Xu de la Universidad Lehigh y Zhe Gan de la Universidad de Duke; y Han Zhang de la Universidad Rutgers y Xiaolei Huang de la Universidad Lehigh.