Caen barreras conforme las tecnologías de habla y lenguaje de Microsoft salen del laboratorio

Por: John Roach, que escribe sobre innovación e investigación en Microsoft. Síganlo en Twitter.

[caption id="attachment_19595" align="aligncenter" width="960"] Will Lewis, gerente principal de programa para el equipo de Translator en Microsoft, realiza una demostración de traducción en tiempo real con Amanda Song, gerente de programa, en el evento Conversations on AI de Microsoft en San Francisco. Foto de John Brecher para Microsoft.[/caption]

Microsoft anunció hace unos días que ha incorporado sistemas de clase mundial para traducción entre alemán, chino e inglés, los cuales están basados en investigación innovadora, en sus tecnologías de traducción disponibles a nivel público

La nueva tecnología de traducción es uno de los diferentes avances que se han movido de los laboratorios de investigación de Microsoft a las manos de los consumidores.

Estas tecnologías “hacen de este mundo un lugar mejor”, comentó Xuedong Huang, empleado técnico en Microsoft Cloud and IA, quien lidera el grupo de Habla y Lenguaje.

Por ejemplo, los nuevos sistemas de traducción para alemán, chino e inglés, están basados en investigación pionera en traducción automática que utilizó redes neurales profundas avanzadas para alcanzar la paridad humana en la traducción de artículos noticiosos de chino a inglés. Los ingenieros de cómputo de Microsoft tomaron ese sistema de investigación y lo adaptaron a la suite de tecnologías de traducción de la compañía disponible a través de Azure Cognitive Services, incluida la aplicación Microsoft Translator y el complemento Presentation Translator para PowerPoint.

Para los meses siguientes, el equipo planea aplicar la tecnología a idiomas adicionales soportados por Microsoft Translator.

El equipo de Huang también actualizó de manera reciente un sistema de reconocimiento de habla para inglés que está disponible a través de Speech Services desde Azure Cognitive Services. La capacidad está adaptada a partir de un sistema de investigación que consiguió la paridad humana en transcripciones de conversaciones telefónicas humanas grabadas, cuyas pruebas de comparación demostraron que es “insuperable”, señaló Huang.

Para dar voz a estas palabras y lenguajes, el equipo de Huang ha desarrollado y puesto a disposición a través de una versión previa en Azure Cognitive Services, un sistema de síntesis neural de texto a habla que genera voces digitales a partir de texto que son casi indistinguibles de las grabaciones de personas. La tecnología puede ser utilizada para crear interacciones más naturales y atractivas con chatbots y asistentes virtuales, convertir textos digitales como e-books en audiolibros y mejorar la navegación dentro del auto, por brindar algunos ejemplos.

De manera reciente, el grupo de habla y lenguaje también presentó una versión previa de un nuevo dispositivo prototipo audio-visual que aprovecha un avance en el llamado reconocimiento de habla de campo lejano mejorado por visión para producir transcripciones precisas incluso cuando la gente no habla directo a un micrófono. La tecnología de campo lejano está disponible para desarrolladores a través del SDK Speech Devices.

Aunque este es aún un proyecto de investigación, Huang comentó que el dispositivo prototipo de Microsoft que aprovecha esta tecnología podría permitir una mayor digitalización en las reuniones. Por ejemplo, las traducciones en tiempo real permiten a la gente que habla diferentes idiomas conversar de manera natural en tiempo real sin la necesidad de sostener cerca de su boca un dispositivo. El sistema también genera transcripciones en tiempo real con cada hablante identificado de manera automática. Estas transcripciones pueden ser buscadas, lo que permite a la gente que no pudo asistir a la reunión descubrir quién dijo eso.

“Esto va a mejorar la productividad y la eficiencia”, comentó Huang.