Azure HDInsight が H2O.ai をサポート


執筆者: Xiaoyong Zhu (Program Manager II, OSS and Analytics)

このポストは、4 月 19 日に投稿された Introducing H2O.ai on Azure HDInsight の翻訳です。

 

Azure HDInsight アプリケーション プラットフォーム (英語)H2O の AI プラットフォーム (英語) がサポートされることが発表されました。これにより、Azure HDInsight で H2O.ai のオープン ソース ソリューションを活用し、業界最高レベルの SLA で保証される高信頼性のオープン ソース分析機能を使用できるようになりました。

H2O と HDInsight の統合の詳細については、H2O Azure HDInsight のチームが開催する Web セミナー (英語) でご説明します。登録のうえ、ぜひご参加ください。

HDInsight と H2O の組み合わせでビッグ データを活用したデータ科学が高速化

Azure HDInsight は、99.9% の可用性が SLA で保証され、Spark、Hive、MapReduce、HBase、Storm、Kafka、R Server 向けのオープン ソースの分析クラスターに最適化された唯一のフルマネージド型クラウド Hadoop サービスです。このサービスでは、エンタープライズ クラスのセキュリティ機能や監視機能を使用して、これらのビッグ データ テクノロジや H2O などの ISV アプリケーションをマネージド型のクラスターとして容易にデプロイすることができます。

データ科学のエコシステムはこの数年間で急速に成長しており、H2O の AI プラットフォーム (英語) では Spark sparklyr (英語) や PySpark と連携するオープン ソースの機械学習フレームワークが提供されます。H2O の Sparkling Water を使用すると、H2O の高速でスケーラブルな機械学習アルゴリズムを Spark の機能と組み合わせることができます。Sparkling Water では、Scala、R、Python の演算処理を促進でき、また、H2O Flow の UI を使用することで、アプリケーション開発者にとって理想的な機械学習プラットフォームを提供できます。

ビッグ データを利用する高度な分析機能の実行環境をセットアップすることは容易ではありませんが、H2O Artificial Intelligence for HDInsight を使用するとわずか数クリックで使用を開始できます。このソリューションでは HDInsight Spark クラスターに Sparkling Water がインストールされ、Spark と H2O の両方の機能をすべて使用できます。また、H2O でサポートされているすべての標準的なデータ ソースだけでなく、Azure Blob Storage、Azure Data Lake Store、あるいはその両方のデータにアクセスできます。さらに、すぐに使用を開始できるように、Jupyter Notebook と組み込みのサンプルが用意されており、使いやすい H2O Flow の UI (英語) からアプリケーションの監視やデバッグを行うこともできます。

使用を開始するには

業界最先端の Azure クラウド プラットフォームでは、わずか数クリックで非常に簡単に HDInsight で H2O の使用を開始できます。H2O をインストールするには、HDInsight クラスターを新規作成する際にユーザー アプリケーションとして [H2O Artificial Intelligence for HDInsight] を選択し、ライセンス条項に同意するだけです。

1

また、[Application] リンクをクリックすると、既存の HDInsight Spark クラスターにも H2O をデプロイできます。

4

Sparkling Water では、H2O の高速でスケーラブルな機械学習エンジンと Spark を統合できます。このソリューションでは、Spark のデータ構造 (RDD、DataFrame) を H2O のフレームとして発行したり、その逆を行ったりできます。Python インターフェイスを使用すると、PySpark をはじめとする多くの環境から Sparkling Water を直接使用できます。HDInsight で実行される H2O のアーキテクチャは、以下のとおりです。

image

HDInsight への H2O のインストールが完了すると、Spark クラスターに組み込まれている Jupyter Notebook を使用して、HDInsight で実行される H2O でのアプリケーション開発をすぐに開始できます。Jupyter Notebook を開くと、“H2O-PySparkling-Examples” というフォルダー名が表示されます。ここには、使用開始時に役立つサンプルがいくつか含まれています。

2

H2O Flow (英語) は Web ベースのインタラクティブなコンピューティング用ユーザー インターフェイスで、コード実行やテキスト、数式、グラフ、リッチ メディアを 1 つのドキュメントにまとめることができます。この機能では、機械学習モデル用の高機能な視覚化エクスペリエンスが提供され、ハイパーパラメーターの調整や ROC 曲線などがネイティブにサポートされています。

H2O Flow

HDInsight と H2O を組み合わせると、データ科学ソリューションを容易に構築し、エンタープライズ レベルの品質と規模で実行することができます。Azure HDInsight では、基盤となるビッグ データ フレームワーク (Hadoop + Spark など) を利用してデータ科学向け環境を作成するツールが提供されると同時に、H2O のテクノロジで提供される完全に分散型の高度なアルゴリズム群を使用できるため、大規模で高精度なモデルを迅速に構築してデプロイすることができます。

H2O.ai は現在、Microsoft Azure Marketplace (英語) および HDInsight アプリケーションで提供されています。技術的な詳細については、H2O のドキュメント (英語) および HDInsight Blog のこちらの記事 (英語) を参照してください。

関連資料

まとめ

この記事では、HDInsight アプリケーション プラットフォームが拡張され、H2O.ai をサポートしたことについてご紹介しました。H2O を HDInsight にデプロイすることで、分析ソリューションを容易に構築し、エンタープライズ レベルの品質と規模で実行できるようになります。ぜひご利用ください。

Comments (0)

Skip to main content