Azure Media Analytics の Face Redaction 機能を発表

Article
09/30/2016

執筆者: Richard Li (Program Manager, Azure Media Services)

このポストは、9 月 12 日に投稿された Announcing Face Redaction for Azure Media Analytics の翻訳です。

Azure Media Redactor は、クラウド環境で利用できるスケーラブルな編集機能で、Azure Media Analytics のコンポーネントの 1 つとして提供されます。選択した人物の顔にぼかしを入れて匿名化できるため、公共の安全に関する活動やニュースメディアでの利用に最適です。近年、警備活動や公共の場でのウェアラブルカメラの使用が普及し始めていることから、情報公開法や公文書法に従って動画の開示を要求された際に、担当部署の負担が大きくなっています。こうした要求があった場合、提出する前に未成年や周囲に居合わせた人物の顔をぼかす必要があるため、時間とコストが余計にかかってしまいます。

多くの人物の顔が映り込んでいると、数分程度の動画でも手動で編集する場合何時間もかかります。今回発表された Azure Media Redactor では、このような手間のかかる手動での編集を簡単な操作で行えるようになります。

Azure Media Analytics

Azure Media Analytics は、規模、コンプライアンス、セキュリティ、グローバル展開といったエンタープライズクラスのニーズに対応した一連の音声・映像サービスです。Azure が提供するその他の Media Analytics プロセッサについては、Milan Gadas が執筆した Azure Media Analytics の概説記事 (英語) をご覧ください。

これらの機能には、新しい Azure ポータルから、または後述のプリセットを使用して API から、あるいは無料の Azure Media Services エクスプローラーからアクセスできます。

Face Redaction 機能はしばらくの間はパブリックプレビューとして提供され、9 月中旬からすべてのパブリックデータセンターで利用できるようになります。なお、中国と米国政府機関向けのデータセンターでは、一般提供版から利用できるようになります。

Face Redaction

Face Redaction 機能では動画のすべてのフレームで顔が検出され、その顔が時系列で追跡されるため、アングルが変化しても同一人物として認識してぼかしを適用できます。

顔をぼかす処理は今なおコンピューターによる処理は難しく、手動で処理するほどの精度は得られません。暗い、動きが激しいなどの厳しい条件下では、誤検出や検出漏れが発生することがあります。

自動でのぼかし処理は 100% 正確であるとは限らないため、最終出力を調整するための手段が 2 つ用意されています。

ワークフローは 2 つの工程に分けられ、ID のリストを介して検出された顔を選択または選択解除できる「Analyze」モードと、JSON 形式のメタデータファイルを使用して任意のフレームごとに調整ができる「Redact」モードから成ります。両方のモードを 1 つのジョブとして完全に自動で処理する「Combined」モードもあります。

Combined モード

このモードは、手動による入力を行わずに自動で mp4 ファイルを編集します。

MediaProcessorName には “Azure Media Redactor” を指定します。

段階	ファイル名	説明
入力アセット	<任意のファイル名>.<拡張子>	WMV/MOV/MP4 形式の動画ファイル。
入力構成	ジョブ構成プリセット	{'version':'1.0', 'options': {'Mode':’combined’}}
出力アセット	<入力ファイル名>_redacted.mp4	ぼかしが適用された動画。

入力例

出力例

Analyze モード

2 つのモードから成るワークフローの Analyze モードは、入力動画を取得し、顔の位置を示す JSON ファイルと、検出されたそれぞれの顔の jpg 画像を生成します。

段階	ファイル名	説明
入力アセット	<任意のファイル名>.<拡張子>	WMV/MOV/MP4 形式の動画ファイル。
入力構成	ジョブ構成プリセット	{'version':'1.0', 'options': {'Mode':’analyze’}}
出力アセット	<入力ファイル名>_annotations.json	顔の位置を示すアノテーションデータ (JSON 形式)。このデータを手動で編集して境界ボックスのぼかしを変更することができます (下記の例参照)。
出力アセット	<入力ファイル名>_thumb%06d.jpg (<入力ファイル名>_thumb000001.jpg, <入力ファイル名>_thumb000002.jpg など)	検出されたそれぞれの顔がトリミングされた jpg ファイル。ファイル名の番号は顔の ID を表します。

出力例

ファイル全体をダウンロード

{
"version": 1,
"timescale": 50,
"offset": 0,
"framerate": 25.0,
"width": 1280,
"height": 720,
"fragments": [
{
"start": 0,
"duration": 2,
"interval": 2,
"events": [
[
{
"id": 1,
"x": 0.306415737,
"y": 0.03199235,
"width": 0.15357475,
"height": 0.322126418
},
{
"id": 2,
"x": 0.5625317,
"y": 0.0868245438,
"width": 0.149155334,
"height": 0.355517566
}
]
]
},
… (以下省略)

Redact モード

ワークフローの 2 つ目のモードは、単一のアセットとして複数の入力ファイルを組み合わせて処理します。

この処理では、ぼかす対象の ID のリスト、元の動画、JSON 形式のアノテーションを使用して、アノテーションに従って入力動画にぼかしを適用します。

段階	ファイル名	説明
入力アセット	<任意のファイル名>.<拡張子>	WMV/MOV/MP4 形式の動画ファイル (Analyze モードと同じ動画)。
入力アセット	<入力ファイル名>_annotations.json	Analyze モードで生成されたアノテーションメタデータファイルに任意の変更を加えたもの。
入力アセット	<入力ファイル名>_IDList.txt (任意)	ぼかし対象の顔の ID を個別に指定します (任意)。リストが空の場合はすべての顔にぼかしが適用されます。
入力構成	ジョブ構成プリセット	{'version':'1.0', 'options': {'Mode':’redact’}}
出力アセット	<任意のファイル名>_redacted.mp4	アノテーションに従ってぼかしが適用された動画。

出力例

次に示すのは、ID リストファイルに ID を 1 つ指定した場合の例です。

アノテーションについて

Media Redactor メディアプロセッサでは、動画 1 フレームあたり最大 64 人までの顔の位置が高精度で検出、追跡されます。正面を向いている場合は良好な結果が得られますが、横向きの場合や小さく映っている場合 (24x24 ピクセル以下) は精度が下がることがあります。

検出された追跡対象の顔については、顔の位置を示す座標と、追跡対象の人物を示す顔の ID が返されます。顔の ID は、正面向きの顔を見失った場合やフレーム内で重なった場合にリセットされることがあるため、同一人物に複数の ID が割り当てられることもあります。

各属性の詳細については、Face Detector に関するブログ記事を参照してください。

使用を開始するには

このサービスは、ご利用中の Azure サブスクリプションで Media Services アカウントを作成するだけで、REST API/SDK (英語) または Azure Media Services エクスプローラー (英語) (v3.44.0.0 以降) から使用できます。

ドキュメントページでサンプルコードを公開していますので、そちらもご覧ください。ただし、サンプルコードのプリセットを前述のとおり変更し、MediaProcessorName を “Azure Media Redactor” に変更する必要があります。