文章から画像を生成するボットを開発


Posted by: ジョン ローチ (John Roach)

あなたが「黄色い胴体、黒い羽、短いくちばしの鳥を書いてください。」と言われたら、まず、鳥の輪郭を下描きし、黄色のペンで胴体を塗り、黒のペンで羽を塗って、最後にチェックをしてから、くちばしを短く描き、光の反射の表現を加えるでしょう。そして、鳥がとまっている木の枝も描くでしょう。

とうとう、ボットもこれと同じことができるようになりました。

Microsoft Researchで開発中の新しいAIテクノロジは、キャプションのような文章中の単語に注目して画像を生成します。arXiv.orgに投稿した研究論文のテストの結果では、このテクノロジは、従来のテキストから画像への変換手法の最先端技術と比較して、業界標準テストによる画像品質が約3倍に向上しています。

研究者が「ドローイングボット」と呼ぶこのテクノロジは、家畜の群れる農村の風景などの普通の景色から、宙に浮く2階建てバスといった馬鹿げたものまで、テキストからあらゆる画像を生成できます。各画像には、テキストの説明にはない詳細な背景などが含まれ、このAIには人工的な想像力を有していることを物語っています。

ワシントン州レドモンドのMicrosoft Research深層学習技術センターの主任研究員兼リサーチマネージャーであるチアドン・ホー (Xiaodong He) は次のように述べています。「Bingで鳥を検索すると鳥の画像が見つかりますが、このテクノロジを活用した場合、コンピューターによってゼロから鳥の画像が生成されます。生成された鳥は、現実には存在しないかもしれません。コンピューターが想像力によって生み出した鳥に過ぎないのです。」

ドローイングボットは、ホーと同僚たちが過去5年間にわたり研究してきた、画像と自然言語処理という両分野の交差によるものであり、それに関連する研究の集大成です。最初に、写真のキャプションを自動的に作成するテクノロジであるCaptionBotが作られ、次に、物体の位置や特性など画像に関する質問に回答するテクノロジが作られました(このテクノロジは視覚障がいを持つ人々にとって非常に有用です)。

これらの研究には物体を識別するための機械学習モデルの訓練、行動の解釈、そして、自然言語による対話が必要となります。

「今、私たちはテキストを使って画像を生成しようとしています。」と、ホーのグループのポストドクター研究者であり、論文“So, it is a cycle”(「なるほど、これが円ですね。」)の共著者であるチウユアン・ファン (Qiuyuan Huang) は言います。

画像の生成はキャプション付けよりも困難な作業です、とチームの一員であるペンツァン・チャン (Pengchuan Zhang)準研究員は付け加えます。これは、ドローイングボットがキャプションにない詳細部分の描写を作り上げなければならないためです。「機械学習アルゴリズムにより、画像中の欠けた部分を想像させなければならないのです。」

洞察力も備えた画像生成

マイクロソフトのドローイングボットの中核にあるのは GAN (Generative Adversarial Network:敵対的生成ネットワーク)と呼ばれるテクノロジです。このネットワークは 2つの機械学習モデルから構成され、生成ネットワークと呼ばれる一方のモデルが文章の記述から画像を生成し、もう一方の「ディスクリミネータ」と呼ばれるモデルが、生成された画像の正当性を文書の記述に基づいて判断します。生成ネットワークは間違った画像で識別ネットワークを欺こうとし、識別ネットワークは欺かれないように学習します。両者が協同することで、識別ネットワークは生成ネットワークを完璧な形に近づけていきます。

マイクロソフトのドローイングボットは画像とキャプションのペアから成るデータセットによって訓練しました。これにより、モデルは単語とその単語のビジュアルな表現との関係を学習することができます。GANは、たとえば、キャプションに鳥と書いてあった時には鳥を描くよう学習し、鳥の絵がどのようであるべきかを学習します。「これが、機械が学習できると私たちが考える根本的理由です」と、ホーは述べます。

GANは「青い鳥」や「常緑植物」といった単純な記述に基づいて画像を生成するのは得意ですが、「頭が緑色で、翼が黄色で、腹が赤色の鳥」といった複雑な記述になると画像の品質は低下します。これは、文章全体が生成ネットワークに対する単一の情報として扱われ、詳細な情報が失われてしまうからです。結果として得られるのは緑、黄色、赤が混ざったぼやけた鳥の画像であり、記述に合致するものではなくなります。

人間が絵を描く時にはテキストの記述を何回も参照し、今描いている部分に関する記述に対して注意を払います。この人間の特性を獲得するために、研究者たちは人間の洞察力を数学的に表現したAttnGAN(アテンショナル GAN)と呼ばれるネットワークを構築しました。このネットワークは、入力テキストを個別の単語に分解し、画像中の特定の領域と対応付けることで画像を生成します。

「洞察力は人間的概念です。私たちは数学を使ってコンピューターに洞察力を身につけさせます」とホーは説明します。

このモデルは人間が常識と考えるものを訓練データから学び、画像中の想像に任せられた部分に学習した概念を当てはめます。たとえば、訓練データ中の鳥の画像の多くは鳥が木の枝にとまっているため、AttnGANはテキストの記述と矛盾しない限り、鳥が木の上にとまっている画像を描きます。

「機械学習モデルは、鳥がどこにいるべきかという常識をデータから学習します」とチャンは言います。テストのために、チームは「赤い2階建てバスが湖に浮いている」という馬鹿げたキャプションをドローイングボットに入力しました。2つのデッキがあるボートと2階建てバスの両方に似た物体が山に囲まれた湖に浮かぶぼやけた画像が生成されました。これは、湖に浮かぶのはボートである一方でテキストではバスが指定されていることから、ボットが内部的に葛藤したことを示しています。

「記述を変更してマシンがどのように対応するかを見ることができます。そして対応の変化によりマシンが学習したことをテストできます。マシンはある程度の常識を学んでいますが、それでも矛盾する要求に従うことができ、時には馬鹿げた結果を生み出します」とホーは説明します。

実用的応用

テキストから画像への生成テクノロジには、画家やインテリアデザイナーのスケッチの補助や音声による写真編集ツールなどの実用的な応用が考えられます。ホーは、コンピューティング能力の強化により、台本に基づいたアニメーションの自動作成などを実用化できると構想しています。

現時点では、このテクノロジは完璧ではありません。画像をよく見ればほとんどの場合に欠陥があります。例えば、鳥のくちばしが黒ではなく青であったり、果物として売られているバナナが突然変異を起こしたようになっていたりします。これらの欠陥は、人間ではなくコンピューターが画像を作成していることの証拠でもあります。とは言え、AttnGANの画像の品質は、以前の最高水準のGANと比較して約3倍の向上を達成しています。これは、ホーによれば、人間の能力を高める汎用のインテリジェンスを実現する上での重要なマイルストーンです。

「AIと人間が同じ世界で共存するためには、互いにやり取りするための方法が必要です。そして、そのための最も重要な2つ方法が言語と画像です」とホーは説明します。

本研究には、マイクロソフトのチアドン・ホー、ペンツァン・チャン、チウユアン・ファンに加えて、インターンであるリーハイ大学のタオ・シュー(Tao Xu)、デューク大学のツェ・ガン (Zhe Gan) 、そして、ルトガー大学のハン・ツァ (Han Zhang)、リーハイ大学のシオライ・ファン (Xiaolei Huang)も協力しています。

 

関連資料(英語)

Read the research paper describing the AttnGAN
Learn more about Microsoft’s AI research efforts in Vision and Language Intelligence
Check out the CaptionBot and Seeing AI
Decades of computer vision research, one ‘Swiss Army knife’
John Roach writes about Microsoft research and innovation. Follow him on Twitter.

ーーー

本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。


Skip to main content