歴史的成果: マイクロソフトの研究者が対話型音声認識において人間と同等の成績を達成


マイクロソフト Speech & Dialog リサーチグループの研究者たち。左後方より、ウェイン ション (Wayne Xiong)、ジェフリー ツヴァイク (Geoffrey Zweig)、ゼドン ファン (Xuedong Huang)、ドン ユー (Dong Yu)、フランク シード (Frank Seide)、マイク ゼルツァー (Mike Seltzer)、ヤーシャ ドロッポ (Jasha Droppo)、アンドレアス ストーク (Andreas Stolcke)。 (写真: ダン デロン (Dan DeLong))

マイクロソフト Speech & Dialog リサーチグループの研究者たち。左後方より、ウェイン ション (Wayne Xiong)、ジェフリー ツヴァイク (Geoffrey Zweig)、ゼドン ファン (Xuedong Huang)、ドン ユー (Dong Yu)、フランク シード (Frank Seide)、マイク ゼルツァー (Mike Seltzer)、ヤーシャ ドロッポ (Jasha Droppo)、アンドレアス ストーク (Andreas Stolcke)。 (写真: ダン デロン (Dan DeLong))

space

2016年10月18日
Posted: アリソン リン

マイクロソフトは、会話中の単語を人間と同じように認識できるテクノロジを開発し、音声認識分野で大きな進歩を遂げました。

月曜に発表された論文において、Microsoft Artificial Intelligence and Research の研究者とエンジニアのチームは、文字起こしの専門家よりもエラー率が低い音声認識システムを開発したことを報告しました。WER(Word Error Rate:単語エラー率)は5.9パーセントであり、先月同チームにより報告されたばかりの6.3パーセントよりもさらに向上しています。

5.9パーセントというエラー率は、同じ会話の文字起こしを行なった人間と同等であり、業界標準の電話音声認識処理における最高記録です。

マイクロソフトの首席音声研究者であるゼドン ファン(Xuedong Huang)は、「我々は人間と同等の成績を達成しました。これは歴史的快挙です」と述べています。

このマイルストーンは、史上初めてコンピューターが人間と同じように会話中の単語を認識できるようになったことを意味します。研究チームが1年前に設定した目標を上回り、同時にあらゆる人の予測をも越えたことになります。

Microsoft Artificial Intelligence and Research グループを統率するエグゼクティブ バイスプレジデントのハリー シャム (Harry Shum) は次のように述べています。「5年前ですら私はこのような成果が達成できるとは思っていませんでした。そもそもこれが可能であるとは考えていませんでした。」

この研究のマイルストーンは、1970年代に国防目的での革新的テクノロジ開発を行なう政府機関である DARPA (国防高等研究計画局)において始まった数十年にわたる音声認識の研究の結果です。この期間にほとんどの大手テクノロジ企業と多くの研究機関が音声認識の技術革新を追求してきました。

Speech & Dialog リサーチグループを統率する ジェフリー ツヴァイク (Geoffrey Zweig) は「この成果は20年以上にわたる努力の結晶です」と述べています。

このマイルストーンは、消費者向け、企業向けを問わず音声認識で強化可能な広範な製品に影響を及ぼします。たとえば、Xbox などの消費者向けエンターテインメントデバイス、リアルタイムの音声テキスト変換などのアクセシビリティツール、Cortana などのパーソナルデジタルアシスタントがそのような製品の例です。

シャムは「この成果により Cortana はより強力になり、真の意味でインテリジェントなデジタルアシスタントが実現されるでしょう」と述べています。
space

同格であって完璧ではない

このマイルストーンの達成はコンピューターがすべての単語を完璧に認識できることを意味するものではありません。実際、人間にもそれは不可能です。今回の成果は、たとえば、“have” を “is” と聞き間違えたり、“a” を “the” と聞き間違えたりするエラー率を同じ会話を聞いた人間と同等レベルにできたということです。

ツヴァイクはこの成果がシステムのあらゆる局面で最新のニューラルネットワークテクノロジを体系的に活用した結果であるとしています。

単語を空間内の連続したベクトルとして表現し、“fast” と “quick” を近くに配置するようなニューラル言語モデルの採用により、研究者の目標達成が大きく推進されました。

「これによりモデルを単語間できわめて効果的に一般化することができました」とツヴァイクは述べています。
space

「夢が現実に」

ディープニューラルネットワークは、コンピューターシステムに画像や音声などの入力からパターンを認識させるために、トレーニングセットと呼ばれる大量のデータを使用します。

人間と同等の性能というマイルストーン達成のために、チームはマイクロソフトのディープラーニング用自社開発システムである Computational Network Toolkit (以下CNTK)を活用しました。同システムは、GitHub 上でオープンソースライセンスに基づいて公開されています。

GPU(Graphics Processing Unit)という専用チップを搭載した複数のコンピューター上でディープラーニングのアルゴリズムを高速に処理できるCNTKにより研究のスピードを大幅に加速し、最終的に人間と同等レベルという目標を達成できたとファンは述べています。
チームはいったん何かを始めると止めることができない人々の集まりでした。ファンはこのマイルストーンが達成されたのは午前3時30分であったと述べています。その数時間後に起床した時に、社内のソーシャルネットワークに勝利の報告が投稿されていたのを発見したそうです。

30年以上も音声認識分野での研究開発を続けているファンは「まさに夢が現実になりました」と述べています。

このニュースと同じ週に、コンピュータービジョンにフォーカスした他のマイクロソフト研究者のグループが別のマイルストーンを達成していました。同グループは、画像内で特定の物がどこにあるかを判断する能力のコンテストである COCO イメージセグメンテーションチャレンジ で一位を獲得しました。

Microsoft Research Asia のアシスタントマネージングディレクターであるベイニン ガオ (Baining Guo) は、画像内の物体の境界線を正確に判別することが必要であるためセグメンテーションがとりわけ困難であったと述べています。

「この方法の発見が最も難しい部分でした」とガオは述べています。

同チームの結果は、マイクロソフトのコンピュータービジョンの専門家が昨年開発し、受賞歴もある超深層ニューラルネットワークを活用したものであり、コンテンスト第2位のシステムと比較して11パーセント優れており、昨年度のマイクロソフトによる第1位のシステムと比較しても大幅な向上を示しました。

ガオは「マイクロソフトは画像認識の同分野で今後ともリーダーであり続けます」と述べています。
space

認識から真の理解へ

近年の画像認識と音声認識の両分野における大幅な進歩にもかかわらず、まだ多くのやり残した点があると研究者たちは忠告しています。

将来的には、音声認識が現実世界により近い環境で適切に機能できるようにすることに、研究者は注力しているとツヴァイクは述べています。たとえば、パーティや高速道路でのドライブなど背景のノイズが大きい場所などへの対応があります。また、複数の人が話している時に、個別の話し手を識別するテクノロジの改良、および、多様な年齢、アクセント、言語能力にも対応できるようにすることにもフォーカスしていきます。

より長期的には、研究者は、人々が発する音声を文字化するだけではなく、実際に話していることを理解する方向でも研究を進めていきます。これにより、コンピューターが質問に回答したり、言われたことに従って行動したりすることが可能になります。

「次のフロンティアは認識から理解への進展です」とツヴァイクは述べています。

シャムは、人間がコンピューターを理解しなければならない世界から、コンピューターが人間を理解しなければならない世界へのシフトが進んでいると述べています。とは言え、真の意味での人工知能の実現はまだ遠い未来のことである点に注意が必要であるとしています。

「コンピューターが聴いたことや見た物の真の意味を理解できるようになるまでには相当な期間を要し、やるべきことも数多くあります」とシャムは述べています。

 

Skip to main content