Project Oxford de Microsoft ayuda a los desarrolladores a construir aplicaciones más inteligentes

Article
05/08/2015

Las nuevas herramientas de Microsoft permiten a los desarrolladores agregar cosas como reconocimiento facial a sus aplicaciones.

En su mundo ideal, haría cualquier cantidad de increíbles trucos, como identificar los rostros de los usuarios en fotos o entender cuando un corredor le pide comenzar o finalizar el rastreo de una rutina.

Pero esas sofisticadas características sólo son posibles con el tipo de aprendizaje de máquina avanzado que ustedes no tienen el tiempo o los recursos de crear por su propia cuenta.

“Todas estas son cosas de las que la gente no quiere preocuparse cuando construyen su aplicación”, dijo Meenaz Merchant, Gerente de Programa Principal con el equipo de Experiencias de Bing en Microsoft.

Durante Build 2015, la conferencia para desarrolladores que se realizó en San Francisco, Microsoft ofreció una solución. Lanzó un conjunto de tecnologías conocidas como Project Oxfordque permiten a los desarrolladores crear aplicaciones más inteligentes, que pueden hacer cosas como reconocer rostros e interpretar lenguaje natural incluso si los desarrolladores de la aplicación no son expertos en esos campos.

“Si eres desarrollador de aplicaciones, puedes solo tomar las capacidades de la API y no preocuparte por el aspecto del aprendizaje de máquina”, comentó Vijay Vokkaarne, Gerente Principal del Grupo de Programa de Bing, cuyo equipo trabaja en el aspecto del habla del Project Oxford.

La serie de servicios está disponible en la actualidad para uso limitado en beta.

Los servicios también permiten a los desarrolladores automatizar tareas que para ellos, manejarlas sería muy costoso y les consumiría mucho tiempo. Por ejemplo, el aspecto visual del servicio puede clasificar miles de fotos enviadas por el usuario para identificar cuáles de estas podrían contener contenido racista o inapropiado, o sólo identificar fotos de escenas de playa. Incluso puede agrupar fotos basado en una gama de color dominante.

Hacer esto por su propia cuenta es “como encontrar una aguja en un pajar”, aclaró Merchant.

Los servicios también trabajan en diferentes plataformas y lenguajes de programación, desde Windows y Windows Phone a iOS y Android. Para probarlos, un desarrollador debe tener una cuenta con Azure, la plataforma de cómputo en la nube de Microsoft.

Ryan Galgon, Gerente Senior de Programa en la División de Tecnología e Investigación en Microsoft, dijo que la empresa ofrece los servicios porque quiere compartir tecnologías con la comunidad de desarrolladores que ya ha comenzado a crear sus propios productos y servicios.

En un principio, Microsoft ofrece los servicios en una beta gratuita limita, en parte para que se pueda entender cómo se utilizan estos servicios.

“Queremos entender qué necesitan los desarrolladores de estos servicios”, comentó Galgon.

La nueva colección de ofertas de aprendizaje de máquina es ofrecida a los desarrolladores como parte del portafolio de Azure de Microsoft. En la actualidad, Project Oxford incluye cuatro componentes principales:

Reconocimiento facial: Esta tecnología reconoce rostros de manera automática en fotos, grupos de rostros parecidos y verifica si dos rostros son de la misma persona. Puede ser utilizado para cosas como reconocer de manera sencilla qué usuarios están en ciertas fotos y permitir al usuario ingresar por medio de autentificación facial. Es la misma tecnología que está detrás de este nuevo y divertido sitio web que adivina la edad de una persona basado en una fotografía.

Procesamiento de habla: Esta tecnología puede reconocer habla y traducirla a texto y viceversa. Un desarrollador podría utilizarlo para herramientas manos libres como la posibilidad de dictar texto o tener una lectura de instrucciones u otras funciones importantes automatizada a través de voz.

Herramientas visuales: Este servicio puede analizar contenido visual para buscar cosas como contenido inapropiado o una gama dominante de color. También puede detectar y entender texto en fotos, como el nombre de un equipo y puede clasificar fotos por contenido, como imágenes de playa, animales o comida. Por último, puede editar fotos de manera automática a una miniatura reconocible y útil para un fácil escaneo.

Servicio de Entendimiento Inteligente de Lenguaje (Language Understanding Intelligent Service [LUIS], por sus siglas en inglés): Este servicio, ofrecido en la actualidad como una beta por invitación, permite a las aplicaciones entender lo que usuarios quieren decir cuando escriben o dicen algo a través de lenguaje natural y de día. A través de aprendizaje de máquina, en el que los sistemas mejoran su predicción de lo que el usuario quiere basados en la experiencia, para después entender lo que la gente quiere que haga la aplicación.

Por ejemplo, en una aplicación para ejercicio el sistema podría aprender que cuando el usuario dice “Quiero comenzar mi carrera”, “comenzar a correr” o incluso “voy a correr”, todo esto significa que debe comenzar a rastrear la distancia de la persona y el tipo de actividad que “correr” es. De manera similar, palabras como “por favor detener mi carrera”, “pausar esta carrera” o “terminé de correr” significaría que el sistema debe para el rastreo.

El sistema está construido en una interfaz relativamente simple para que los desarrolladores con un amplio surtido de historial puedan enseñar a LUIS a aprender qué palabras señalan a cada acción. Además, conforme la gente utilice una aplicación, LUIS puede aprender a entender lo que la gente quiere cuando dice cosas como, “No puedo más. Por favor termina esta carrera”.

Desarrolladores, si están interesados en Project Oxford, pueden probarlo ahora. Las herramientas de reconocimiento de habla, imagen y rostro están disponibles en versión beta y por el momento Project LUIS está disponible sólo a través de invitación.

Contenido relacionado:

Project Oxford de Microsoft ayuda a los desarrolladores a construir aplicaciones más inteligentes

Additional resources