ついに日本語で翻訳コンニャクが実現!? Skype と人工知能の組み合わせで

  ここ数年間、日本を訪れる海外からの観光客の数は着々と増加しています。今後数年間に、2019 年ラグビーワールドカップや 2020 年東京オリンピック・パラリンピック競技大会をはじめ数々の世界的なスポーツイベントが開催され、その数はさらに増加するでしょう。それにともない、日本と海外のコミュニケーション機会も増加していきます。 マイクロソフトでは、従来から AI による日本語の音声認識と機械翻訳への投資を行ってきましたが、この度、Microsoft Translator アプリ/ライブ機能や Skype 翻訳など音声認識と機械翻訳を行うサービス/製品において、いままでに得られたブレークスルーを提供します。また、開発者もMicrosoft Cognitive Services のひとつ、Translator API でそのパワーを利用できます。


機械翻訳の概要

(この記事は Machine Translation の翻訳です。)   この記事では機械翻訳を支えるコア技術と、この領域でのマイクロソフトのソリューションの両方について説明します。   機械翻訳とは 機械翻訳システムは、アプリケーションや機械学習技術を使用して、大量のテキストから、サポートされている言語のいずれかに変換するオンラインサービスです。サービスは、ある言語の「ソース」のテキストを別の「ターゲット」言語に変換します。 2010年代初頭以来、新しい人工知能技術、ディープニューラルネットワーク (または深層学習) は、Microsoft Translator チームコアテキスト翻訳技術を使用し、新しい音声翻訳技術を起動して音声認識を結合する品質レベルに到達する音声認識の技術を可能にしています。


音声認識技術の歴史~約 50 年にわたる歩み

1971: アメリカ国防高等研究計画局 (DARPA) が最初の音声認識プロジェクトに取り掛かる。 1975: 後で隠れマルコフモデルとして知られる技術が提案される。IBM が音声認識の研究を始める。 1978: Texas Instruments が Speak & Spell をリリース。 1982: 混合ガウスモデルが音声認識で利用され始める。 1986: 研究者がニューラルネットワークの実験を開始。 1994: Dragon Naturally Speaking (ドラゴンスピーチ) と IBM Via Voice が登場。 1995: マイクロソフトが Windows 95 に最初のスピーチツールを提供。 1996: SRI International が双方向のボイス応答ソフトウェアを提供。 2001: マイクロソフトが SAPI 5.0 で Windows XP と Office XP に音声認識を提供。