Azure Cognitive Services の新機能をご紹介

Article
05/14/2019

執筆者: Anand Raman (Group Product Manager, Azure AI)

このポストは、2019 年 5 月 3 日に投稿された A deep dive into what’s new with Azure Cognitive Services の翻訳です。

今回の記事は、Azure Cognitive Services 担当シニアプロダクトマーケティングマネージャーを務める Tina Coll と共同で執筆しました。

Microsoft Build 2019 では、開発者向けの新たなサービスや機能が発表され、Azure Cognitive Services の進展にとって重要な一歩となりました。Personalizer のリリースにより、開発者の皆様は、Azure のパワーを活かして実際のビジネスで強化学習を利用できるようになります。Personalizer は、Anomaly Detector と Content Moderator と併せて、Cognitive Services に新たに追加された「Decision (決定)」カテゴリに属し、情報に基づいて効率的に意思決定を行うための推奨事項を提示します。

プレビューおよび一般提供を開始する機能は次のとおりです。

プレビュー

Cognitive Servicesの API

Personalizer – パーソナライズされたユーザーエクスペリエンスを作成します。
Conversation Transcription (英語) – 対面での会話をリアルタイムに文字起こしします。
Form Recognizer (英語) – データ入力を自動化します。
Ink Recognizer (英語) – デジタルインクで書かれたコンテンツを新しい方法で活用できます。

データに近いエッジでビジネス AI モデルを利用するためのコンテナーサポート

一般提供

Cognitive Services は「Vision (視覚)」「Speech (音声)」「Language (言語)」「Search (検索)」「Decision (決定)」というカテゴリから成り、見る・聞く・理解する・判断するなどの機能をアプリに組み込みたい開発者に向けた包括的なポートフォリオを提供しています。では詳しく見ていきましょう。

Decision: 企業での強化学習の利用を支援する Personalizer を新規追加

小売業、メディア、eコマースなどの各種業界では、エクスペリエンスをパーソナライズするという究極の理想を長年追い続けてきました。しかし、ユーザーが求めている以上のものを提供するには、CRM、DMP などのさまざまなプラットフォームを連携させ、さらに A/B テストを何度も繰り返す必要があります。強化学習とは、現実世界で起きていることをリアルタイムで学習し AI が目標を達成できるようにするための手法です。この強力な強化学習を基盤とする機能を Personalizer の使いやすい API から利用できます。これは他社製品にはない Azure だけのサービスです。

マイクロソフトの社内チームは、Personalizer をユーザーエクスペリエンスの改善に活用しています。たとえば Xbox では、Personalizer を使用してユーザーそれぞれに関心のありそうなコンテンツを表示し、利用時間を 40% 向上させました。

Speech: 会話の文字起こし機能で対面会議を効率化

Speech to Text (英語) の高度な機能の 1 つである Conversation Transcription (英語) は、会話をリアルタイムに文字に起こすことで会議の円滑な進行を促進します。いつだれが何を発言したかを把握でき、すべての参加者が会議に集中して次のステップに迅速に移ることができます。この Conversation Transcription を、一般提供が開始された Speech Devices SDK と連携するデバイスと組み合わせれば、高品質の文字起こしが実現できます。また、Microsoft Teams やその他のサードパーティ製会議ソフトウェアなど、さまざまな会議ソリューションとも連携が可能です。詳細については、Speech カテゴリのページをご覧ください。

Vision: フォームからデジタルインクのメモまで、コンテンツの価値を引き出す

Form Recognizer (英語) は、高度な機械学習テクノロジを使用して、ビジネス関連のフォームやドキュメントから迅速かつ正確にテキストやデータを抽出します。コンテナーサポートもあるため、オンプレミスとクラウドのどちらでもサービスを実行できます。特定のコンテンツに合わせて情報抽出を迅速に自動化できます。用意するサンプルは 5 つだけでよく、手動でのラベル付けも必要ありません。

Ink Recognizer (英語) では、デジタル手書き文字、一般的な図形、インク機能で書かれたドキュメントのレイアウトを認識する機能を提供します。Ink Recognizer の API を通じて、物理的なペンと紙の利点とデジタルの利点を組み合わせたエクスペリエンスを作成できます。

Ink Recognizer は Microsoft Office 365 や Windows に統合されており、自然な形でのコンテンツ作成を可能にしています。たとえば、PowerPoint の Ink Recognizer によって、アイデアが即座にプロレベルのスライドに変換されます。

AI をエッジに組み込む

2018 年 11 月に、オンプレミス、クラウド、エッジで実行できる Cognitive Services コンテナーのプレビューを発表しました。これは、業界としては初のサービスです。

以下のコンテナーサポートのプレビューを開始しました。

Cognitive Services をコンテナーで利用すると、ISV や企業の皆様は、エッジコンピューティングを活用してビジネスを刷新できます。コネクテッドパブリックセーフティテクノロジの世界的大手企業として世界 100 か国を超える 17,000 以上の法執行機関と提携している Axon では、1 秒の対応の遅れが重大な事態につながりかねないパブリックセーフティの現場で Cognitive Services コンテナーを利用しています。

「マイクロソフトの Cognitive Services コンテナーのおかげで、法執行機関のお客様に向けて最高レベルのデータ整合性とコンプライアンスを確保しながら、ネットワーク接続が制限される場所でも AI 製品を稼働させられるようになりました」

– Moji Solgi 氏 (AI & 機械学習担当バイスプレジデント、Axon)

既存の Cognitive Services ポートフォリオを拡充

新たに追加されたサービス以外にも、以下の機能の一般提供が開始されました。

Neural Text to Speech のサポートが 5 種類の音声、9 つのリージョンに拡大し、より多くの言語や地域のお客様にご利用いただけるようになりました。音声合成マークアップ言語や音声チューニングポータルを使用して話し方のスタイルを変更すれば、用途に応じて音声を調整し、さまざまな感情を表現したり口調を変えたりできます。新たに追加された音声は、Text to Speech のページで聞いてみることができます。

Computer Vision の読み取り機能で、複数ページのドキュメントを読み込めるようになりました。また、PDF や TIFF などの一般的な種類のファイルからテキストを抽出する機能が強化されました。

Computer Vision の画像タグ付けモデルが強化され、1 万種類以上の概念、場面、オブジェクトを理解できるようになり、認識可能な著名人が 20 万人から 100 万人に増えました。Video Indexer も強化され、その 1 つである AI Editor は、NAB Show 2019 の AI/ML 部門で Product of the Year Award を獲得しました。

Text Analytics の名前付きエンティティの認識機能は、自由形式のテキストを読み込んで、人物、場所、企業などのエンティティが含まれているかどうかを識別します。API を呼び出すと、機械学習モデルに基づいてあらゆるテキストドキュメントから 20 種類以上の名前付きエンティティが発見、分類されます。名前付きエンティティの認識機能は、19 の言語モデルをプレビューとしてサポートしており、英語とスペイン語のサポートが一般提供となりました。

QnA Maker でマルチターンダイアログがサポートされました。また、中核機能である PDF や Web サイトからダイアログを抽出する機能が強化されました。

今すぐご利用ください

今回の大きな進展は、マイクロソフトが AI の最新イノベーションをインテリジェントクラウドやインテリジェントエッジに組み込むために注力してきた成果です。

Azure Cognitive Services のページをご覧いただき、インテリジェントなアプリの構築を始めてください。