オンプレミスとクラウドのハイブリッド Hadoop データパイプラインを Hortonworks と Cortana Analytics で実現

Article
02/04/2016

このポストは、2 月 1 日に投稿された On-premises and cloud hybrid Hadoop data pipelines with Hortonworks and Cortana Analytics の翻訳です。

Azure Data Factory と Hortonworks Falcon (英語) のチームはこのたび、ハイブリッド Hadoop データパイプラインの構築を可能にする機能のプライベートプレビュー版を共同発表しました。この機能では、オンプレミスの Hortonworks Hadoop クラスターとクラウドベースの Cortana Analytics サービス (HDInsight Hadoop クラスターや Azure Machine Learning など) を組み合わせて活用します。

オンプレミスで Hadoop ベースのデータレイクを管理しているお客様の多くは、オンプレミスのデータレイクをクラウドに拡張してハイブリッドのデータフローも利用できるようにしたいと考えています。その理由は次のようにさまざまです。

PII や他の機密情報はプライバシーやコンプライアンス上の問題からオンプレミスに保持したいが、機密情報には当たらないワークロードについては柔軟なスケールでクラウドを活用したい
リージョン間レプリケーションや災害復旧の目的でクラウドを活用したい
開発やテスト環境用にクラウドを活用したい

このようなハイブリッドシナリオを前にして、個別の ETL・データパイプラインソリューションを 2 つ用意しても、それぞれのデータフローをまとめて確認する方法がなく、分断された状況に行き詰まっているお客様は少なくありません。そうした課題を解消するのが、今回プライベートプレビューで提供されるハイブリッドパイプラインです。これを使用すると、オンプレミスとクラウドにまたがるデータのフローと依存関係全体をクラウドベースのデータファクトリとしてモデル化し、視覚化することができます。データファクトリ向けの業界最高レベルのこの管理ツールを活用することにより、不具合のある箇所を特定し修正することから、ジョブの実行状況にかかわらず失敗したワークフローを再実行することまで、効率的な運用が可能になります。

ハイブリッド Hadoop パイプラインでは、オンプレミスの Hadoop クラスターをコンピューティング対象として追加し、データファクトリでジョブを実行することができます。クラウドの HDInsight ベース Hadoop クラスターのような他のコンピューティング対象を追加するのと同様です。

オンプレミスのクラスターとデータファクトリサービスは、わずか数クリックで安全なチャネルを使用して接続できます (GitHub のサンプルは記事の最後のリンクからご覧ください)。接続が完了すると、上の図に示したように、ハイブリッドパイプラインを作成して以下を行うことができます。

データファクトリ内の新しいオンプレミスの Hive アクティビティと Pig アクティビティを使用して、Hadoop の Hive と Pig のジョブをオンプレミスでオーケストレートする
新しいオンプレミスのレプリケーションアクティビティを使用して、オンプレミスの HDFS のデータをクラウドの Azure Blob にコピーする
パイプラインにさらに処理を追加し、クラウドで Hadoop HDInsight アクティビティなどを使用してビッグデータ処理を続ける

プライベートプレビュー版は、ごく一部のお客様に提供されます。この機能にご興味のある方は、こちらの短いアンケート (英語) にご回答ください。お客様の用途が適していると判断された場合にこちらからご連絡させていただきます。

既にプライベートプレビュー版をご利用の場合は、GitHub のサンプル (英語) をご覧ください。ハイブリッドパイプラインを有効化する方法や、データファクトリと Falcon 間でデータをやり取りする方法、セットアップ方法の具体的な手順が詳細に記載されています。

オンプレミスとクラウドのハイブリッド Hadoop データ パイプラインを Hortonworks と Cortana Analytics で実現

Additional resources

オンプレミスとクラウドのハイブリッド Hadoop データパイプラインを Hortonworks と Cortana Analytics で実現