Video Indexer : 一般提供開始とその他の発表について


執筆者: Ella Ben-Tov (Senior Program Manager, Video Indexer)

このポストは、2018 9 13 日に投稿された Video Indexer General availability and beyond の翻訳です。

 

このたび、Video Indexer の一般提供が開始 (英語) されました。これにより、Azure のお客様は、Video Indexer のすべてのメタデータ関連の機能を常に業務に利用できるようになります。しかし、Video Indexer に関する発表事項は、今回の一般提供だけではありません。2018 年 5 月に Video Indexer のパブリック プレビューをリリース (英語) して以来、Video Indexer チームは常にイノベーションを継続して豊富な新機能を追加し、Video Indexer のインサイトを充実させると共に、お客様のビデオやオーディオのニーズに対応してきました。

快適なエクスペリエンスとウィジェットの強化

Video Indexer ポータルの既存の [Insights] および [Timeline] ウィンドウでは、お客様がメディアのインサイトを簡単に確認して評価することができます。このエクスペリエンスは、埋め込み可能なウィジェット (英語) でも利用できます。このウィジェットは、Video Indexer を任意のアプリケーションに統合する場合に便利な方法です。

今回、[Insights] および [Timeline] ウィンドウが刷新されました。これらの新しいウィンドウは、Video Indexer に表示されるインサイトの増加に対応するもので、各種フォーム ファクターに自動的に応答します。

gif

新しい [Insights] ウィンドウには、既存のキーフレーム抽出機能の視覚化と、新しい感情検出のインサイトも追加されました。詳細については、次のセクションをご覧ください。

新しいモデルによって豊富なインサイトを提供

言うまでもなく、Video Indexer の中核を成すのは、クロスチャネル (オーディオ、音声、視覚情報) の豊富な機械学習モデルです。Video Indexer チームは、ビデオのメタデータのインサイトを充実させるために引き続き新しいモデルを追加し、既存のモデルを強化するべく取り組んでいます。

ごく最近では、Video Indexer に新しい感情検出モデルとトピック推論モデルが追加されました。新しい感情検出モデルは、発言内容と口調という 2 つのチャネルに基づいて、ビデオおよびオーディオ アセットに感情が表れる瞬間を検出し、怒り、恐れ、喜び、悲しみという 4 種類の感情に分類します。Video Indexer で検出される他のインサイトと同様に、ビデオから各感情が検出された時間が正確に表示され、その結果は簡単に統合できる JSON ファイル、ポータルで確認できる [Insights] および [Timeline] エクスペリエンス、埋め込み可能なウィジェットとして提供されます。

Emotions -02

Video Indexer に追加されたもう 1 つの重要なモデルがトピック推論機能です。このモデルは、発言に含まれる単語や視覚的な手がかりに基づいて、ビデオ ファイルやオーディオ ファイルの大まかなトピックを認識します。Video Indexer の既存のキーワード抽出モデルとは異なり、アセットから推論されるものの、必ずしもアセットに出現しないトピックをさまざまな粒度 (「科学」、「天文学」、「火星探査ミッション」など) で検出します。これに対して、抽出されるキーワードは実際にコンテンツに出現する具体的な用語です。このモデルのトピック カタログは、IPTC メディア トピック分類コード (英語) をはじめとする複数のリソースに基づいて、メディア標準トピックを提供しています。

トピックは現在、JSON ファイルに保存されます。お試しになるには、プレーヤーの下にある中かっこボタンまたは API を使用してファイルをダウンロードし、topics ハンモックを検索します。現在も新しいユーザー ポータル エクスペリエンスの提供に向けて取り組んでいますので、引き続き最新情報にご注目ください。

新しいモデルのリリースに加えて、既存のモデルの強化にも取り組んでいます。その 1 つがご好評いただいている有名人の認識モデルです。このモデルは最近、IMDBWikipediaLinkedIn の主要なインフルエンサーなど、ご要望の多いデータ ソースに基づいて、約 100 万の顔を検出するように強化されました。ぜひお試しください。もしかしたら、あなたの顔も検出されるかもしれません。

People-01

最近では、カスタム言語モデル (英語) も強化されました。このモデルは、お客様が Video Indexer の音声テキスト変換機能を拡張し、独自のコンテンツや業界用語を追加できるようにするものです。先月より、このカスタム言語のサポートが拡張され、英語、スペイン語、イタリア語、アラビア語、ヒンディー語、中国語、日本語、ポルトガル語、フランス語など、10 か国語に対応しました。

ビデオの話し言葉の自動識別 (英語) も、最近リリースされた重要なモデルです。この新機能を使用すると、多数のビデオに対して手作業で言語を指定することなく、一括してインデックスを容易に作成できます。このモデルは、使用されている主言語を自動的に識別し、適切な音声テキスト変換モデルを呼び出します。

LID

アカウントを簡単に管理

Video Indexer のアカウントには、Azure Media Services アカウントを利用しており、必要に応じてコンテンツのエンコーディング、計算、ストリーミングを実行するために、AMS の各種コンポーネントをインフラストラクチャとして使用します。

Video Indexer で使用される Azure Media Services リソースの管理を容易にするために、先日 Video Indexer ポータルから関連する構成や状態を確認できるようになりました。このポータルには、任意の時点においてインデックス作成ジョブに使用されているメディア リソース、インデックス作成に割り当てられている予約ユニットの数と種類、実行中のインデックス作成ジョブの数、キューに登録されているジョブの数が表示されます。

さらに、インデックス作成に関するビジネス ニーズを阻害する可能性のある構成が特定された場合には、警告やエラーが表示され、特定された問題に関連する Azure ポータルの場所へのリンクが提供されます。このような構成としては、サブスクリプションに Event Grid の通知が登録されていない、ストリーミング エンドポイントが無効になっている、予約ユニットの数が不十分である、などのケースが考えられます。

この機能をお試しになるには、Video Indexer ポータルのアカウント設定にアクセスし、[Account] タブを選択します。

Settings (paid) 1.7

このセクションには、インデックス作成に使用されるコンピューティング ユニットの自動スケーリング機能も追加されました。これにより、Media Services アカウントに最大限のコンピューティング予約ユニットを割り当てることが可能で、Video Indexer が必要に応じて自動的に予約ユニットを停止または開始します。その結果、アイドル時間の料金を余計に支払ったり、インデックス作成の負荷が高い場合にインデックス作成ジョブの完了を待ったりする必要がなくなります。

インサイトの抽出のみを希望し、コンテンツを視聴する必要がないお客様は、新機能の No streaming オプションを利用できます。これに該当する場合、インデックス作成時にこの新たに追加されたパラメーターを使用すれば、エンコーディングのコストが発生せず、インデックス作成を高速化できます。このオプションを選択した場合には、ポータルのプレーヤーでビデオが再生されません。そのため、ソリューションでポータルやウィジェットを活用している場合は、ストリーミングを有効化したままにすることをお勧めします。

統合作業の負担を最小化

数か月前のパブリック プレビューと同時に、強化された新しい Video Indexer v2 RESTful API (英語) もリリースされました。この API を使用すると、クライアント/サーバー アーキテクチャとサーバー間アーキテクチャのいずれでも、Video Indexer をアプリケーションにすばやく簡単に統合できます。

この API に続いて、最近 Logic Apps および Flow 用の新しい Video Indexer v2 コネクタがリリースされました。これにより、コードを 1 行も記述することなく、Video Indexer の独自のカスタム ワークフローを設定して、ビデオから詳細なインサイトを抽出するプロセスをすばやく簡単に自動化することができます。

こちらのブログ記事 (英語) で新しいコネクタの詳細をご確認のうえ、サンプル テンプレートをお試しください。

flow

Video Indexer との統合が現在のワークフローや既存のインフラストラクチャに適合するように、字幕ファイル形式のサポートの拡張により、SubRip Text (SRT) および W3C Timed Text (TTML) ファイル形式が追加されました。各種字幕ファイル形式の抽出方法の詳細については、こちらのページ (英語) をご覧ください。

今後について

今回の一般提供は始まりにすぎません。今回のブログでもご紹介したように、既に多数の新機能が追加されており、今後もさらに多数の機能を実装するために積極的に取り組んでいます。引き続き、パートナーやお客様のご協力を得て Video Indexer を強化し、ビデオおよびオーディオ コンテンツを発見しやすくすると共に、インサイトを充実させて、有用なものにしたいと考えています。

ご不明な点やご意見がありましたら、皆様のコメントをお待ちしております。開発する機能の優先順位を決定するために、UserVoice (英語) をご利用ください。また、ご質問があれば VISupport@Microsoft.com までご連絡ください。

 

Comments (0)

Skip to main content