マイクロソフトの音声認識技術、人間と同等の認識率をさらに改善

[2017 年 8 月 20 日] 本日、マイクロソフトの研究チームが開発した音声認識システムによる 5.1%の誤認識率が達成されたことを発表します。これは業界の新たなマイルストーンであり、マイクロソフトが昨年達成した正確性を大きく上回ります。 昨年、マイクロソフトの音声認識システムは 5.9% の誤認識率を達成したと発表しました。これは人間と同等レベルですが、IBM の研究者により提唱されていたより厳格な基準である5.1%という数字が今回達成されました。過去 25 年間において、人間と同等の正確性を達成することがマイクロソフトにおける研究開発の目標でした。


ついに日本語で翻訳コンニャクが実現!? Skype と人工知能の組み合わせで

  ここ数年間、日本を訪れる海外からの観光客の数は着々と増加しています。今後数年間に、2019 年ラグビーワールドカップや 2020 年東京オリンピック・パラリンピック競技大会をはじめ数々の世界的なスポーツイベントが開催され、その数はさらに増加するでしょう。それにともない、日本と海外のコミュニケーション機会も増加していきます。 マイクロソフトでは、従来から AI による日本語の音声認識と機械翻訳への投資を行ってきましたが、この度、Microsoft Translator アプリ/ライブ機能や Skype 翻訳など音声認識と機械翻訳を行うサービス/製品において、いままでに得られたブレークスルーを提供します。また、開発者もMicrosoft Cognitive Services のひとつ、Translator API でそのパワーを利用できます。


機械翻訳の概要

(この記事は Machine Translation の翻訳です。)   この記事では機械翻訳を支えるコア技術と、この領域でのマイクロソフトのソリューションの両方について説明します。   機械翻訳とは 機械翻訳システムは、アプリケーションや機械学習技術を使用して、大量のテキストから、サポートされている言語のいずれかに変換するオンラインサービスです。サービスは、ある言語の「ソース」のテキストを別の「ターゲット」言語に変換します。 2010年代初頭以来、新しい人工知能技術、ディープニューラルネットワーク (または深層学習) は、Microsoft Translator チームコアテキスト翻訳技術を使用し、新しい音声翻訳技術を起動して音声認識を結合する品質レベルに到達する音声認識の技術を可能にしています。


ニューラルネットワークに基づく機械翻訳のしくみ

(この記事は What is neural network based translation? の翻訳です。)   ニューラルネットワークに基づく機械翻訳とはどういうものでしょう? なぜ翻訳精度が上がるのでしょうか? 機械翻訳は 2000 年代半ばより様々なアプリや Web サイトで活用されてきました。 1960 年代から長期間にわたり、コンピューター科学者たちは文法と個々の言語構造に基づく機械翻訳を作ろうとしてきました。多くの場合、翻訳結果はあまり芳しくないものでした。 ブレークスルーは新しいコンセプト、機械学習が機械翻訳に取り入れられたときにやってきました。プロの翻訳家によりあらかじめ翻訳された莫大なデータを使い、特定の文脈の下であらかじめ翻訳された文章から、単語を翻訳する方法を、強力なアルゴリズムが学習します。