Logro histórico: los investigadores de Microsoft llegan a la paridad humana en reconocimiento del habla conversacional


For Microsoft Technology and Research: A research team photographed in Microsoft's Building 99 in Redmond, Wash. on Thursday, October 13, 2016. Photo by Dan DeLong

Investigadores de Microsoft del grupo de investigación de Habla y Diálogo incluye, del fondo a la izquierda, a Wayne Xiong, Geoffrey Zweig, Xuedong Huang, Dong Yu, Frank Seide, Mike Seltzer, Jasha Droppo y Andreas Stolcke. (Foto: Dan DeLong)

Microsoft ha realizado un gran avance en el reconocimiento de habla, a través de la creación de una tecnología que reconoce las palabras en una conversación, así como lo hace una persona.

En un artículo, un equipo de investigadores e ingenieros de Inteligencia Artificial e Investigación de Microsoft informó de un sistema de reconocimiento de voz que tiene los mismos o menos errores que los transcriptores profesionales. Los investigadores reportaron una tasa de error de palabra (WER) del 5.9 por ciento, por debajo del 6.3 por ciento de WER el equipo reportó el mes pasado.

La tasa de error del 5.9 por ciento está a punto de igualar a la de las personas a quienes se pidió transcribir la misma conversación, y es la más baja registrada contra Switchboard, el estándar de la industria para tareas de reconocimiento de voz.

“Hemos llegado a la paridad humana”, dijo Xuedong Huang, jefe científico de habla de la compañía. “Este es un logro histórico”.

El hito significa que, por primera vez, una computadora puede reconocer las palabras en una conversación, así como una persona lo haría. De este modo, el equipo superó el objetivo que se fijaron hace menos de un año – y en gran medida superó las expectativas de todos los demás también.

“Hace tan sólo cinco años, yo no habría pensado que pudiéramos lograr esto. Yo no habría pensado que sería posible “, dijo Harry Shum, vicepresidente ejecutivo que encabeza el grupo de Investigación de Inteligencia Artificial en Microsoft.

El hito de la investigación se produce después de décadas de investigación en el reconocimiento de voz, a partir de la década de 1970 con la DARPA, la agencia de EE.UU. encargada de hacer avances tecnológicos en interés de la seguridad nacional. Durante décadas, la mayoría de las principales compañías de tecnología y muchas organizaciones de investigación se unieron a la persecución.

“Este logro es la culminación de más de veinte años de esfuerzo”, dijo Geoffrey Zweig, que dirige el grupo de investigación de Habla y de Diálogo.

El hito tendrá amplias implicaciones para los productos de consumo y de negocios que se pueden aumentar de manera significativa por el reconocimiento de voz. Esto incluye dispositivos de entretenimiento de consumo, como Xbox, herramientas de accesibilidad como la transcripción inmediata de voz a texto y asistentes digitales personales como Cortana.

“Esto hará que Cortana sea más poderosa, será una asistente lo más inteligente posible”, dijo Shum.

Paridad, no perfección

El hito de la investigación no significa que la computadora reconoce cada palabra de manera perfecta. De hecho, tampoco los seres humanos hacen eso. En su lugar, significa que la tasa de error – o la velocidad a la que el equipo entendió mal una palabra como “tienen” para “es” o “a” para “la” – es el mismo que el que cabría esperar de una persona que escucha la misma conversación.

Zweig atribuyó el logro a el uso sistemático de la última tecnología de redes neuronales en todos los aspectos del sistema.

El empujón que recibieron los investigadores para llegar a lo más alto fue el uso de modelos de lenguaje neural en el que las palabras se representan como vectores continuos en el espacio, y palabras como “rápido” y “rápida” están muy juntas.

“Esto permite que los modelos generalicen muy bien de palabra en palabra,” dijo Zweig.

‘Un sueño hecho realidad’

Las redes neuronales profundas utilizan grandes cantidades de datos – llamadas series de entrenamiento – para enseñar a los sistemas informáticos a reconocer patrones de insumos tales como imágenes o sonidos.

Para alcanzar el hito de paridad humana, el equipo utilizó el Computational Network Toolkit de Microsoft, un sistema de desarrollo propio para el aprendizaje profundo que el equipo de investigación ha puesto a disposición en GitHub a través de una licencia de código abierto.

Huang dijo que la capacidad de procesar rápidamente algoritmos CNTK de aprendizaje profundo en varios equipos que corren con un chip especializado llamado unidad de procesamiento de gráficos, ha mejorado enormemente la velocidad a la que fueron capaces de hacer su investigación y, en última instancia, llegar a la paridad humana.

Las ganancias fueron rápidas, pero una vez que el equipo se dio cuenta de que estaban en algo que era difícil dejar de trabajar. Huang dijo que el hito se alcanzó alrededor de las 3:30 a.m.; se dio cuenta de ello cuando se despertó unas horas más tarde y vio una publicación victoriosa en una red social privada.

“Fue un sueño hecho realidad para mí”, dijo Huang, que ha trabajado en el reconocimiento de voz durante más de tres décadas.

La noticia se produjo en la misma semana que otro grupo de investigadores de Microsoft, que se centran en la visión por computadora, alcanzara un hito propio. El equipo ganó el primer lugar en el desafío de segmentación de imágenes COCO, que juzga qué tan bien una tecnología puede determinar la posición de ciertos objetos en una imagen.

Baining Guo, director general adjunto de Microsoft Research Asia, dijo que la segmentación es particularmente difícil debido a que la tecnología debe delimitar con precisión los límites en los que un objeto aparece en una imagen.

“Esa es la parte más dura de averiguar de la imagen “, dijo.

Los resultados del equipo, que se basó en el galardonado sistema de redes neuronales muy profundo que los expertos de visión por ordenador de Microsoft diseñaron el año pasado, fue del 11 por ciento mejor que el ganador del segundo lugar y una mejora significativa sobre el primer lugar de Microsoft ganan el año pasado.

“Seguimos como líderes en el campo de reconocimiento de imágenes”, dijo Guo.

Desde el reconocimiento hasta la verdadera comprensión

A pesar de los grandes avances en los últimos años, tanto en el reconocimiento de la visión como en el habla, los investigadores advierten que todavía hay mucho trabajo por hacer.

En el futuro, Zweig dijo que los investigadores están trabajando en formas para asegurarse de que el reconocimiento de voz funcione bien en más situaciones de la vida real. Eso incluye lugares donde hay una gran cantidad de ruido de fondo, como en una fiesta o durante la conducción en la carretera. Ellos también se centran en mejores formas de ayudar a la tecnología a asignar nombres a los hablantes individuales cuando varias personas están hablando, y en asegurarse de que funciona bien con una amplia variedad de voces, independientemente de la edad, el acento o la capacidad.

A más largo plazo, los investigadores se centrarán en formas de enseñar a los ordenadores no sólo a transcribir las señales acústicas que salen de la boca de la gente, sino a entender las palabras que están diciendo. Eso daría a la tecnología la capacidad de responder a las preguntas o tomar medidas sobre la base de lo que se les dice.

“La próxima frontera es pasar del reconocimiento a la comprensión,” dijo Zweig.

Shum ha observado que nos estamos alejando de un mundo donde la gente debe entender computadoras a un mundo en el que las computadoras nos deben entender. Aun así, advirtió, la verdadera inteligencia artificial todavía está en el horizonte lejano.

“Será mucho más largo, mucho más por recorrer hasta que las computadoras puedan entender el verdadero significado de lo que se dice o se muestra”, dijo Shum.

Skip to main content