マイクロソフトの画像認識技術が人間レベルの認識率を達成

Article
12/11/2015

[2015 年 12 月 10 日]

マイクロソフトの写真やビデオ内の物体認識技術の精度が人間レベルに達しました。場合によっては人間を超えることもあります。Microsoft Research は新しい画像認識技術により、スタンフォード大学の研究者によって開発された世界最大級の画像データベース " ImageNet" と、マイクロソフト、フェイスブックなどが出資する同様のデータベース "Common Object in Context (COCO)" の大規模画像認識競技会 (ILSVRC 2015+MS COCO 2015)で、他の大学、研究所、企業を抑えて首位を獲得しました。

ILSVRC2015: Classification、Localization、Detection 部門で首位
MS COCO 2015: Image detection、Segmentation 部門で首位

マイクロソフトも他の研究者たちと同様、最近のトレンドであるディープニューラルネットワークを使って人工知能のトレーニングを行っています。今回はとても深い、いままでに利用されていたものよりも 5 倍深いネットワークを使っており、これが精度を向上させた秘訣です。

長期にわたる研究と最近のブレークスルー「ResNet」

コンピューター科学者たちはコンピューターに画像を認識させ言葉を理解させるための学習をさせようと何十年も研究をしてきましたが、最近まで精度が向上しませんでした。5 年ほど前、研究者は脳の生理的処理を模倣したニューラルネットワークと呼ばれるテクノロジーを使って認識させる方法を思いつきました。ニューラルネットワーク自体は新しい手法ではありませんが、その利用法が斬新で、その結果画像認識の精度が大きく向上しました。このシステムは音声認識の分野でも成功し、Skype Translator のリアルタイム翻訳機能の礎となりました。

ニューラルネットワークは何層にもわたって構成されています。理論的には、層が多いほど結果が良くなりますが、現実には層を通過するごとに信号が劣化するため、システム全体をトレーニングすることが最終的には難しくなってしまいます。研究者は 3 年前に 8 層のディープニューラルネットワークのトレーニングに成功し、去年、20～30 層のとても深いニューラルネットワークが結果を返すことに成功しました。

その後、Microsoft Research 内で研究が進み、より深い層を構成しながら信号の劣化を残差の足し合わせで解決するDeep Residual Network (ResNet) が誕生しました。マイクロソフトが首位を獲得した ImageNet 2015 のコンテストで用いられたのは 152 層のニューラルネットワークであり、前年の 2014 年に首位を獲得した 22 層と比べると深度が 5 倍以上に一気に進み、一大センセーションを巻き起こしました。以後、ネットワークアーキテクチャのデザインも「残差学習」という新しい原理をもとに進むようになり、マイクロソフトが開発した手法でとても深いニューラルネットワークを使った学習の精度が一気に向上しました。

この文章は以下の原文を要約したものです:

2015/12/10: Microsoft researchers win ImageNet computer vision challenge (The AI Blog)

マイクロソフトの画像認識技術が人間レベルの認識率を達成

長期にわたる研究と最近のブレークスルー「ResNet」

Additional resources