Hören, Verstehen, Antworten


Logbucheintrag: 180529

Die Computer-Tastatur wird wahrscheinlich einmal so altmodisch wirken wie die Wählscheibe am Telefon. Über ein halbes Jahrhundert ist das Keyboard mit den – je nach Bauart und Einsatzgebiet – gut 50 bis gut 100 Tasten nun schon unser ständiger Begleiter auf Schreibtischen und Oberschenkeln. Vom Ein-Finger-Suchsystem bis Zehn-Finger-Blindsystem haben wir uns individuell auf diese Eingabemöglichkeit eingestellt, während der Prozessor däumchendrehend auf die nächste Eingabe warten muss. Doch das Ende ist in Sicht.

Mit dem Einsatz von Sprachassistenten wie Cortana, der zum Standard auf Desktop und Smartphones gehört, sind wir längst in der Lage, Windows-Systemen gezielt Befehle zu geben. Das führt bereits im Büro, in der Produktion, in der Logistik und vor allem mobil und unterwegs zu einer völlig neuen Kommunikation zwischen Mensch und Maschine. Und trotzdem steckt diese Technologie noch in den Kinderschuhen.

Denn Sprachassistenten erwarten heute noch klare Befehle in eingeschränkter Syntax. Den eigentlichen Durchbruch in der Sprachsteuerung erlangen wir aber erst, wenn wir Sprachassistenz mit Machine Learning kombinieren. Conversational AI – also Konversation durch künstliche Intelligenz – ist deshalb das Ziel für Microsofts Sprachassistenten. Vor zwei Jahren haben wir mit Microsoft Cognitive Services ein erstes Azure-basiertes Framework zur Verfügung gestellt, mit dem Sprachassistenten befähigt werden, natürliche Sprache besser zu verstehen. Rund eine Million Entwickler aus dem Microsoft Partner-Ökosystem nutzen diese Umgebung bereits. Und 300.000 Entwickler setzen inzwischen Microsoft Bots Services ein, mit denen dialogorientierte Sprachumgebungen aufgebaut werden können.

Von diesen Entwicklungsarbeiten profitiert Cortana tagtäglich, so dass wir einen immer besser ausgebildeten Sprachassistenten zur Verfügung haben. Mehr noch: mit dem in China intensiv getesteten, ansonsten aber noch weitgehend unbekannten sozialen Chatbot XiaoIce gibt es einen weiteren Sprachassistenten, der bereits telefonieren kann: XiaoIce hat inzwischen mehrere Millionen Konversationen mit einer durchschnittlichen Länge von 30 Minuten absolviert und dabei seine Fähigkeiten kontinuierlich ausgebaut.

XiaoIce spricht in Mandarin mit der Klarheit eines Nachrichtensprechers und ist in der Lage, zwischen reinen Textdialogen zum Beispiel auf WeChat und einem Telefonanruf zu wechseln. Die Konversationen können im sogenannten „Full Duplex“-Modus gehalten werden, das heißt, dass der Chatbot gleichzeitig sprechen und zuhören kann. Microsoft Satya Nadella hat das System kürzlich in London vorgestellt und dabei gezeigt, wie XiaoIce seinen Gesprächspartner mitten im Satz unterbricht und darauf aufmerksam macht, dass bei dem aufkommenden Wind besser die Fenster geschlossen werden sollten…

Die Entwicklung der Sprachassistenten geht in der Tat mit Riesenschritten weiter: Beide, Cortana und XiaoIce, werden ebenso wie die Microsoft Cognitive Services und die Microsoft Bots Services auch von unserer jüngsten Akquisition profitieren: soeben konnten wir die Übernahme von Semantic Machines abschließen. Das Unternehmen in Berkeley wird die Keimzelle des neuen Microsoft Centers für Speech Recognition. Dabei ist es uns gelungen, die begabtesten Köpfe in der KI-Forschung rund um das Erkennen natürlicher Sprache an uns zu binden: Larry Gillick, der zunächst bei Dragon Software für Spracherkennung zuständig war und später bei Apple Siri Leben einhauchte; Dan Klein, der an der UC Berkeley über Sprach-KI forscht; Percy Liang, der das gleiche Forschungsbiet als Lehrstuhlinhaber in Stanford vorantreibt. Sie bilden mit den KI-Sprachforschern rund um David Ku, CVP und CTO für Forschung und KI bei Microsoft, ein neues Forschungszentrum in Berkeley.

Cortana und XiaoIce werden davon profitieren. Mehr noch aber werden alle denkbaren Systeme, die künftig durch natürliche Sprache schneller und genauer gesteuert werden können, von dieser Initiative profitieren. Das sind ebenso Fertigungsmaschinen wie Co-Bots, halbautonome Fahrzeuge und Flugzeuge, Kioske und Shopsysteme oder eben ganz einfach unsere Smartphones.

Ein bisschen Nostalgie ist schon dabei, wenn das Keyboard verschwindet und damit die von Bill Gates geprägte Tastenkombination Ctrl-Alt-Entf endgültig auf dem Ehrenhof der IT-Geschichte landet. Der liebgewordene Dreifinger-Sprung wird dann den Computer zum letzten Mal in den Schlafmodus versetzen. Der neue Dreisprung lautet dann: Hören, Sprechen, Antworten.

 


Comments (0)

Skip to main content