Azure #CosmosDB を使用したラムダアーキテクチャ: 高性能かつ低 TCO で DevOps の負担を軽減

Article
02/08/2018

執筆者: Denny Lee (Principal Program Manager, Azure CosmosDB)

このポストは、2018 年 1 月 31 日に投稿された Lambda Architecture using Azure #CosmosDB: Faster performance, Low TCO, Low DevOps の翻訳です。

バッチ処理とリアルタイム処理、両方の取り込みとクエリを実行可能な Azure Cosmos DB は、TCO を抑えながらラムダアーキテクチャを実装できるスケーラブルなデータベースソリューションです。ラムダアーキテクチャでは、大規模なデータセットを効率よく処理することが可能です。また、バッチ処理、ストリーム処理、サービスレイヤーによって、ビッグデータのクエリのレイテンシを最小化します。

ラムダアーキテクチャの実装時に以下のテクノロジを組み合わせると、リアルタイムのビッグデータ分析処理をさらに効率化することができます。

Azure Cosmos DB: 業界初のグローバル規模の分散型マルチモデルデータベースサービス
Apache Spark for Azure HDInsight: 大規模なデータ分析アプリケーションを実行する処理フレームワーク
Azure Cosmos DB Change Feed: HDInsight で処理する新しいデータをバッチレイヤーにストリーミング
Spark-Azure Cosmos DB コネクタ

マルチレイヤー設計に基づいたオリジナルのラムダアーキテクチャの基礎と、シンプルに再設計されたアーキテクチャの詳細については、こちらの記事をご覧ください。

ラムダアーキテクチャとは?

上の図は、ラムダアーキテクチャの基本原理を示しています。

すべてのデータは、バッチレイヤーとスピードレイヤーの両方にプッシュされます。
バッチレイヤーでは、マスターデータセット (変更できない追加専用の生データ) を保持し、バッチビューの事前計算を実行します。
サービスレイヤーでは、バッチビューの高速クエリを実行します。
スピードレイヤーでは、直近データのみを処理して、(バッチレイヤーからサービスレイヤーまでの) 処理時間を短縮します。
すべてのクエリの結果は、バッチビューとリアルタイムビューの結果を統合して表示するか、個別に取得することができます。

スピードレイヤー

スピードレイヤーでは、Azure Cosmos DB Change Feed を利用して、バッチレイヤーの状態を保ちながら Change Feed API で Azure Cosmos DB の変更ログを取得します。

レイヤーに関する重要なポイントは以下のとおりです。

すべてのデータは Azure Cosmos DB のみにプッシュされるため、マルチキャストの問題は発生しません。
バッチレイヤーでマスターデータセット (変更できない追加専用の生データセット) を保持し、バッチビューの事前計算を実行します。
サービスレイヤーについては、次のセクションで説明します。
スピードレイヤーでは、HDInsight (Apache Spark) を使用して Azure Cosmos DB Change Feed を読み取ります。このため、データを保持しながらクエリと処理を同時に実行できます。
すべてのクエリの結果は、バッチビューとリアルタイムビューの結果を統合して表示するか、個別に取得することができます。

サンプルコードは、こちらのドキュメントを参照してください。

バッチレイヤーとサービスレイヤー

新しいデータは、マスターデータセット (変更できない追加専用の生データ) が存在する Azure Cosmos DB に読み込まれます (このとき、スピードレイヤー用に Change Feed が使用されます)。その後、次の図のように、バッチレイヤーからサービスレイヤーに送るデータの事前計算を HDInsight (Apache Spark) で実行します。

このレイヤーでの重要なポイントは以下のとおりです。

すべてのデータは Azure Cosmos DB のみにプッシュされます (マルチキャストの問題は発生しません)。
バッチレイヤーには、Azure Cosmos DB に保持されるマスターデータセット (変更できない追加専用の生データ) が存在します。HDInsight Spark を使用して、集計を事前計算し、計算済みバッチビューに保存することができます。
サービスレイヤーは、マスターデータセットと計算済みバッチビューのコレクションを含む Azure Cosmos DB データベースです。
スピードレイヤーについては、次のセクションで説明します。
すべてのクエリの結果は、バッチビューとリアルタイムビューの結果を統合して表示するか、個別に取得することができます。

サンプルコードはこちらのドキュメントをご確認ください。また、以下の完全なサンプルコードは azure-cosmosdb-spark/lambda/samples (英語) を参照してください。

再設計されたラムダアーキテクチャ - バッチレイヤー HTML (英語) | ipynb (英語)
再設計されたラムダアーキテクチャ - バッチレイヤーからサービスレイヤー HTML (英語) | ipynb (英語)

スピードレイヤー

前述のとおり、Azure Cosmos DB Change Feed ライブラリを使用すると、バッチレイヤーとスピードレイヤーの間の操作を簡素化することができます。このアーキテクチャでは、Apache Spark (HDInsight 経由) を使用し、データに対して構造化されたストリーミングクエリを実行します。構造化されたストリーミングクエリの結果を一時的に保存しておき、他のシステムからデータにアクセスすることも可能です。

そのために、構造化されたストリーミングクエリの結果の保存先となる Azure Cosmos DB コレクションが別途作成されます。これにより、Apache Spark 以外のシステムからこの情報にアクセスできるようになります。また、Azure Cosmos DB の Time-to-Live (TTL) 機能を使用して、設定した期間が経過したら自動的にドキュメントを削除するように設定することができます。Azure Cosmos DB の TTL 機能の詳細については、ドキュメント「TTL を使って Azure Cosmos DB コレクションのデータの有効期限が自動的に切れるようにする」を参照してください。

Azure CosmosDB を使用したラムダアーキテクチャ: 高性能かつ低 TCO で DevOps の負担を軽減

ここまで説明したように、Azure Cosmos DB、Azure Cosmos DB Change Feed ライブラリ、Apache Spark on HDInsight、Azure Cosmos DB 用のネイティブな Spark コネクタなどを使用することで、オリジナルのラムダアーキテクチャ (バッチレイヤー、サービスレイヤー、スピードレイヤー) を簡素化することができます。

さらに、操作だけでなくデータフローも簡素化されます。

すべてのデータは Azure Cosmos DB にプッシュされて処理されます。
バッチレイヤーでは、マスターデータセット (変更できない追加専用の生データ) を保持し、バッチビューの事前計算を実行します。
サービスレイヤーでは、バッチビューの高速クエリを実行します。
スピードレイヤーでは直近データのみを処理して、(バッチレイヤーからサービスレイヤーまでの) 処理時間を短縮します。
バッチビューとリアルタイムビューのすべてのクエリの結果が統合されて表示されます。

次のステップ

Spark - Azure Cosmos DB コネクタをまだお持ちでない場合は、GitHub の azure-cosmosdb-spark リポジトリ (英語) からダウンロード可能です。また、その他の資料は以下のリポジトリから入手できます。

Apache Spark SQL、DataFrame、Dataset に関するガイドはこちらのページ (英語)、Apache Spark on Azure HDInsight についてはこちらのページを参照してください。この記事の詳細については、こちらのドキュメントを参照してください。今回は、大企業から個人の開発者まで、だれでも Azure Cosmos DB を使用してわずか数分でビッグデータ用のラムダアーキテクチャを構築できる方法をお伝えしました。Azure Cosmos DB は、こちらのページからすぐにお試しいただけます。サインアップやクレジットカード情報の登録などは必要ありません。Azure Cosmos DB の機能や最新情報については、Twitter アカウント (#CosmosDB、@AzureCosmosDB) をフォローしてください。

- Azure Cosmos DB チーム.

Azure #CosmosDB を使用したラムダ アーキテクチャ: 高性能かつ低 TCO で DevOps の負担を軽減

ラムダ アーキテクチャとは?

スピード レイヤー

バッチ レイヤーとサービス レイヤー

スピード レイヤー

Azure CosmosDB を使用したラムダ アーキテクチャ: 高性能かつ低 TCO で DevOps の負担を軽減

次のステップ

Additional resources

Azure #CosmosDB を使用したラムダアーキテクチャ: 高性能かつ低 TCO で DevOps の負担を軽減

ラムダアーキテクチャとは?

スピードレイヤー

バッチレイヤーとサービスレイヤー

スピードレイヤー

Azure CosmosDB を使用したラムダアーキテクチャ: 高性能かつ低 TCO で DevOps の負担を軽減