Azure Cognitive Services の新機能をご紹介

執筆者: Anand Raman (Group Product Manager, Azure AI)

このポストは、2019 年 5 月 3 日に投稿された A deep dive into what’s new with Azure Cognitive Services の翻訳です。

 

今回の記事は、Azure Cognitive Services 担当シニア プロダクト マーケティング マネージャーを務める Tina Coll と共同で執筆しました。

Microsoft Build 2019 では、開発者向けの新たなサービスや機能が発表され、Azure Cognitive Services の進展にとって重要な一歩となりました。Personalizer のリリースにより、開発者の皆様は、Azure のパワーを活かして実際のビジネスで強化学習を利用できるようになります。Personalizer は、Anomaly DetectorContent Moderator と併せて、Cognitive Services に新たに追加された「Decision (決定)」カテゴリに属し、情報に基づいて効率的に意思決定を行うための推奨事項を提示します。

プレビューおよび一般提供を開始する機能は次のとおりです。

プレビュー

Cognitive Servicesの API

データに近いエッジでビジネス AI モデルを利用するためのコンテナー サポート

一般提供

Cognitive Services は「Vision (視覚)」「Speech (音声)」「Language (言語)」「Search (検索)」「Decision (決定)」というカテゴリから成り、見る・聞く・理解する・判断するなどの機能をアプリに組み込みたい開発者に向けた包括的なポートフォリオを提供しています。では詳しく見ていきましょう。

Decision: 企業での強化学習の利用を支援する Personalizer を新規追加

小売業、メディア、eコマースなどの各種業界では、エクスペリエンスをパーソナライズするという究極の理想を長年追い続けてきました。しかし、ユーザーが求めている以上のものを提供するには、CRM、DMP などのさまざまなプラットフォームを連携させ、さらに A/B テストを何度も繰り返す必要があります。強化学習とは、現実世界で起きていることをリアルタイムで学習し AI が目標を達成できるようにするための手法です。この強力な強化学習を基盤とする機能を Personalizer の使いやすい API から利用できます。これは他社製品にはない Azure だけのサービスです。

マイクロソフトの社内チームは、Personalizer をユーザー エクスペリエンスの改善に活用しています。たとえば Xbox では、Personalizer を使用してユーザーそれぞれに関心のありそうなコンテンツを表示し、利用時間を 40% 向上させました。

A diagram that illustrates how Personalizer works to optimize towards business goals.

Speech: 会話の文字起こし機能で対面会議を効率化

Speech to Text (英語) の高度な機能の 1 つである Conversation Transcription (英語) は、会話をリアルタイムに文字に起こすことで会議の円滑な進行を促進します。いつだれが何を発言したかを把握でき、すべての参加者が会議に集中して次のステップに迅速に移ることができます。この Conversation Transcription を、一般提供が開始された Speech Devices SDK と連携するデバイスと組み合わせれば、高品質の文字起こしが実現できます。また、Microsoft Teams やその他のサードパーティ製会議ソフトウェアなど、さまざまな会議ソリューションとも連携が可能です。詳細については、Speech カテゴリのページをご覧ください。

Example of conversation transcription device and results.

Vision: フォームからデジタル インクのメモまで、コンテンツの価値を引き出す

Form Recognizer (英語) は、高度な機械学習テクノロジを使用して、ビジネス関連のフォームやドキュメントから迅速かつ正確にテキストやデータを抽出します。コンテナー サポートもあるため、オンプレミスとクラウドのどちらでもサービスを実行できます。特定のコンテンツに合わせて情報抽出を迅速に自動化できます。用意するサンプルは 5 つだけでよく、手動でのラベル付けも必要ありません。

An image showing a document with a chart on the left and the extracted key-value pairs from the document on the right.

Ink Recognizer (英語) では、デジタル手書き文字、一般的な図形、インク機能で書かれたドキュメントのレイアウトを認識する機能を提供します。Ink Recognizer の API を通じて、物理的なペンと紙の利点とデジタルの利点を組み合わせたエクスペリエンスを作成できます。

A diagram showing the ink stroke input on the left and the recognition tree on the right.

Ink Recognizer は Microsoft Office 365 や Windows に統合されており、自然な形でのコンテンツ作成を可能にしています。たとえば、PowerPoint の Ink Recognizer によって、アイデアが即座にプロ レベルのスライドに変換されます。

An animated GIF showing how Ink Recognizer is used in PowerPoint.

AI をエッジに組み込む

2018 年 11 月に、オンプレミス、クラウド、エッジで実行できる Cognitive Services コンテナーのプレビューを発表しました。これは、業界としては初のサービスです。

A diagram showing the a representation of Cognitive Services on the left, and a representation of the ability to deploy Cognitive Services with containers on the right.

以下のコンテナー サポートのプレビューを開始しました。

Cognitive Services をコンテナーで利用すると、ISV や企業の皆様は、エッジ コンピューティングを活用してビジネスを刷新できます。コネクテッド パブリック セーフティ テクノロジの世界的大手企業として世界 100 か国を超える 17,000 以上の法執行機関と提携している Axon では、1 秒の対応の遅れが重大な事態につながりかねないパブリック セーフティの現場で Cognitive Services コンテナーを利用しています。

「マイクロソフトの Cognitive Services コンテナーのおかげで、法執行機関のお客様に向けて最高レベルのデータ整合性とコンプライアンスを確保しながら、ネットワーク接続が制限される場所でも AI 製品を稼働させられるようになりました」

– Moji Solgi 氏 (AI & 機械学習担当バイス プレジデント、Axon)

既存の Cognitive Services ポートフォリオを拡充

新たに追加されたサービス以外にも、以下の機能の一般提供が開始されました。

Neural Text to Speech のサポートが 5 種類の音声、9 つのリージョンに拡大し、より多くの言語や地域のお客様にご利用いただけるようになりました。音声合成マークアップ言語音声チューニング ポータルを使用して話し方のスタイルを変更すれば、用途に応じて音声を調整し、さまざまな感情を表現したり口調を変えたりできます。新たに追加された音声は、Text to Speech のページで聞いてみることができます。

Computer Vision の読み取り機能で、複数ページのドキュメントを読み込めるようになりました。また、PDF や TIFF などの一般的な種類のファイルからテキストを抽出する機能が強化されました。

An image showing the a sample PDF on the left, and the extracted JSON output from using Computer Vision on the right.

Computer Vision画像タグ付けモデルが強化され、1 万種類以上の概念、場面、オブジェクトを理解できるようになり、認識可能な著名人が 20 万人から 100 万人に増えました。Video Indexer も強化され、その 1 つである AI Editor は、NAB Show 2019 の AI/ML 部門で Product of the Year Award を獲得しました。

Text Analytics名前付きエンティティの認識機能は、自由形式のテキストを読み込んで、人物、場所、企業などのエンティティが含まれているかどうかを識別します。API を呼び出すと、機械学習モデルに基づいてあらゆるテキスト ドキュメントから 20 種類以上の名前付きエンティティが発見、分類されます。名前付きエンティティの認識機能は、19 の言語モデルをプレビューとしてサポートしており、英語とスペイン語のサポートが一般提供となりました。

QnA Maker でマルチターン ダイアログがサポートされました。また、中核機能である PDF や Web サイトからダイアログを抽出する機能が強化されました。

今すぐご利用ください

今回の大きな進展は、マイクロソフトが AI の最新イノベーションをインテリジェント クラウドやインテリジェント エッジに組み込むために注力してきた成果です。

Azure Cognitive Services のページをご覧いただき、インテリジェントなアプリの構築を始めてください。