Azure で Cloudera Enterprise を完全にサポート

このポストは、9 月 28 日に投稿された Full support of Cloudera Enterprise on Azure の翻訳です。

 

マイクロソフトは、Azure で Cloudera Enterprise (英語) を完全にサポートすることを発表しました。これにより、Cloudera Enterprise の Data Hub Edition (英語)Azure Marketplace (英語) からデプロイしていただけるようになりました。Azure で提供されるこの新サービスにより、主に下記の 2 つの分野で Cloudera のサポートが拡張されます。

  1. あらゆるタイプの運用環境ワークロードで使用される Impala、HBase、Spark、Solr のコンポーネント。リソース消費が激しいサービスや多数のサービスを実行している運用環境ワークロードで大きなメリットが得られます。
  2. DS-14 インスタンスの構成。各ワーカー ノードに最大で 1 TB の容量の Premium Storage の VHD を 10 台アタッチできるため、ノードのストレージ密度がワーカー ノード 1 つあたり 10 TB に増大します。また、ログ保存用に 512 GB の VHD が割り当てられます。

Cloudera Enterprise は Azure Marketplace (英語) からワンクリックでデプロイできます。また、高度なカスタマイズを行う場合は GitHub でホストされている Azure リソース管理テンプレート (英語) からもデプロイできます。

Cloudera の概要

Cloudera (英語) は企業向けのオープン ソース ディストリビューションで、Apache Hadoop および関連するプロジェクトが含まれています。Cloudera Enterprise には世界で最も広く使用されている Hadoop ベースのオープン ソース プラットフォームである CDH (英語) が含まれており、また高度なシステム管理機能やデータ管理機能も使用できます。このプラットフォームは各種の強力な処理フレームワークと分析フレームワークにより大幅にスケールを拡張することが可能で、また企業レベルの管理、データの安全確保、および統制を行うことができます。Cloudera Enterprise には Hadoop の主要なコンポーネント (HDFS、MapReduce、YARN) や、HBase、Impala、Solr、Spark などが含まれています。

Azure での Cloudera Enterprise のアーキテクチャ

Cloudera クラスターは、ワーカー ノードとマスター ノードのどちらの場合でも DS14 仮想マシン インスタンスで構成されます。すべてのノードは Azure Virtual Network にデプロイされるため、各ノードは相互に通信できます。ノードへのアクセスは、サブセット レベルと VM レベルの両方で Network Security Groups (NSG) により保護されます。また、クラスターの内部ネットワークに直接アクセスできるように、エッジ ノードは個別にデプロイすることができます。

これらのノードは、Cloudera ワークロードとしてパフォーマンスの最適化が実施されている、CentOS 6.6 を基盤とする Cloudera の VM イメージ (英語) でプロビジョニングされます。各ワーカー ノードには 1 TB の Premium Storage ディスクを最大で 10 台アタッチすることができます。各マスター ノードには 512 GB の Premium Storage ディスクが 3 台搭載され、さらにログ保存用に 1 ノードあたり 512 GB の Premium Storage がアタッチされます。スループットを最大化するために、各ノードはそれぞれ自身の Azure ストレージ アカウントを所有しています。

評価用にクラスターをデプロイする場合は、1 つのクラスターとして最小構成である 3 つのワーカー ノードと 1 つのマスター ノードを含む 4 ノード構成を使用します。運用環境用のデプロイメントは 3 つのマスター ノードと 3 ~ 30 個のワーカー ノードで構成されます。また、スタンバイ マスター ノードをプロビジョニングすると高可用性 (HA) 仕様もサポートされます。

Azure での Cloudera アーキテクチャの詳細については、こちらのホワイトペーパー (英語) を参照してください。

Azure Marketplace での Cloudera Enterprise のデプロイ

Azure Marketplace から Cloudera Enterprise を利用するには、Azure ポータルから Marketplace に移動して「Cloudera」を検索します。

手順 1: ウィザードに従って、クラスター名や VM の資格情報、リソース グループなどのクラスターのデプロイに関する [Basics] 構成を決定します (下の図を参照)。

手順 2: クラスター ノードのデプロイ先となる Azure Virtual Network とサブネットの情報を入力して、ネットワーク トポロジを指定します。

手順 3: Cloudera Manager の資格情報とクラスターのサイズを入力します。

手順 4: ユーザー情報を入力します。ユーザー情報の用途についてはプライバシーに関する声明 (英語) を参照してください。

手順 5: 内容を確認します。

手順 6: クラスターを購入してデプロイします。

プロビジョニングした Cloudera クラスターへのアクセス

クラスターのプロビジョニングが正常に完了したら、デプロイ時に指定した Cloudera Manager 用のユーザー名とパスワードを使用して、https://[DNS 名]-mn0.[リージョン].cloudapp.azure.com:7180 という URL から Cloudera Manager にアクセスできます。

トラブルシューティングのヒント

デプロイ中にエラーが発生した場合は、Cloudera クラスターを含むリソース グループに Azure ポータルからアクセスします。

失敗したデプロイメントをクリックします。

失敗したイベントのうち最も古いものをクリックし、エラーの詳細を確認します。

エラーが一時的なものである場合、Cloudera クラスター以外のリソースが作成されていないのであれば、リソース グループを削除してから再び実行します。

GitHub からの Cloudera Enterprise のデプロイ

Cloudera クラスターをデプロイするときに高度なカスタマイズが必要な場合は、GitHub で公開されている Azure リソース管理テンプレート (英語) を使用します。[Deploy to Azure] ボタンからデプロイする場合も、Marketplace からデプロイする場合と手順はほぼ同じですが、仮想ネットワークおよびサブネットのアドレス空間などの詳細なパラメーターが表示される点が異なります。また、Azure PowerShellAzure のクロス プラットフォーム クライアント ツールからテンプレートをデプロイすることもできます。

ノードにアタッチするディスクの台数を変更するなど、マスター ノードやデータ ノードでサブ テンプレートをカスタマイズする必要がある場合、すべてのテンプレート ファイルとスクリプトを GitHub からダウンロードし、必要な部分を変更してご自身の GitHub リポジトリにアップロードします。その後、AzureDeploy.json で「scriptsUri」変数を変更し、ご自身の GitHub リポジトリを指定します。