マイクロソフトの音声認識技術、人間と同等の認識率をさらに改善


[2017 年 8 月 20 日]

本日、マイクロソフトの研究チームが開発した音声認識システムによる 5.1%の誤認識率が達成されたことを発表します。これは業界の新たなマイルストーンであり、マイクロソフトが昨年達成した正確性を大きく上回ります。

昨年、マイクロソフトの音声認識システムは 5.9% の誤認識率を達成したと発表しました。これは人間と同等レベルですが、IBM の研究者により提唱されていたより厳格な基準である5.1%という数字が今回達成されました。過去 25 年間において、人間と同等の正確性を達成することがマイクロソフトにおける研究開発の目標でした。

ニューラルネットベースの音響と言語モデルを改良することで、マイクロソフトは Switchboard 会話音声認識タスクの環境で、昨年と比較して誤認識率を約 12% 改善できました。音響モデルの改良のために CNN-BLSTM (Convolutional Neural Network combined with Bidirectional Long-Short-Term Memory:双方向長・短期記憶と組み合わせた畳み込みニューラルネットワーク)モデルが採用されました。さらに、複数の音響モデルの予測を組み合わせるアプローチが、フレーム/セノンのレベルと単語のレベルの両方で行なわれるようになりました。

 

音声認識の進化が、多国籍の聴衆に向けて講演をリアルタイムで翻訳できる Speech Translator などのサービスを生み出しました。

 

今回の成果を含め、過去 25 年間の研究成果が、マイクロソフトの製品やサービス CortanaPresentation TranslatorMicrosoft Cognitive Services などに活かされ、何百万人もの人々が簡単に利用できるようになっています。

業界標準のベンチマークテストである Switchboard 音声認識タスクで人間と同等レベルが達成されたのは大きな進歩ですが、音声認識の分野はまだまだ取り組むべき課題が多い分野です。騒音が多い環境でマイクが遠い場合の認識、訛りの強い音声の認識、学習データが限定的な言語やスタイルの認識、認識された音声の意味と意図の理解の学習などが、精度をさらに高めていくための研究分野となります。会話の認識から理解への進展は、音声テクノロジにおける次の重要なフロンティアです。

 

 

この文章は以下の原文を要約したものです:

 

 

Skip to main content