Hadoop をエンタープライズクラスのクラウドソリューションに: Azure HDInsight 関連の新しいセキュリティ機能、パフォーマンス、ISV ソリューションを提供

Article
10/24/2016

執筆者: Tiffany Wissner (Senior Director Product Marketing, Data Platform)

このポストは、9 月 29 日に投稿された New security, performance and ISV solutions build on Azure HDInsight’s leadership to make Hadoop enterprise-ready for the cloud の翻訳です。

今週ニューヨークで開催された Strata + Hadoop World (英語) は、ビッグデータや高度な分析を実現するテクノロジやビジネスに興味をお持ちの方々で大盛況でした。マイクロソフトはこのイベントでマネージド Hadoop/Spark クラウドサービスである Azure HDInsight の新機能を発表しました。Azure HDInsight は、企業ユーザーが Hadoop をエンタープライズソリューションとしてクラウドで簡単に利用できるようにマイクロソフトが開発してきたもので、クラウドの Hadoop ソリューションとして最高レベルのセキュリティ機能や、データウェアハウスのパフォーマンスに匹敵するビッグデータクエリ速度、データサイエンティスト向けの新しいノートブックエクスペリエンスを備えています。これらはすべて最新の Hortonworks Data Platform 2.5 (一部英語) と Spark 2.0 プラットフォーム (英語) をベースに構築されました。

マネージドのクラウド Hadoop ソリューションとして最高レベルのセキュリティを実現

クラウドへの Hadoop 導入を支援するために、マイクロソフトは企業の皆様が機密データや知的財産の保護を安心して任せられるソリューションを提供しなければならないと考えています。Azure HDInsight が提供する新たなセキュリティ機能では、Hadoop をクラウドで利用する際の認証、承認、監査、暗号化機能に対して最高レベルのセキュリティが実現されます。

認証と ID 管理がわずか数クリックで

Azure HDInsight は、Azure Active Directory および Azure Active Directory ドメインサービスとシームレスに統合された初のビッグデータサービスで、エンタープライズクラスの認証と ID 管理をサポートしています。これらの機能はわずか数クリックで利用できるため、Hadoop クラスターの安全性を簡単に確保できます。既存のオンプレミス Active Directory デプロイメントも簡単に活用できます。現在は、6 億のユーザーアカウントが 1 日に行う 13 億件の認証がサポートされており、多要素認証などの機能を使用すれば、ユーザーやセキュリティグループに対して複雑なアクセス制御ポリシーも作成できます。

一元的なセキュリティポリシーの管理と監査を使用した承認

Azure HDInsight はクラウド Hadoop サービスとしては初めて Apache Ranger (英語) を搭載し、管理者は一元的なポリシーと管理ポータルを通じて Hadoop のデータ、コンポーネント、サービスに対してきめ細かいアクセス制御ポリシーを作成、保守することができます。また、使い慣れた Apache Ranger のユーザーインターフェイスで監査レコードを詳細に分析できるようになりました。

暗号化によるデータ保護

Azure HDInsight で処理されるデータは、Azure Data Lake Store または Azure Storage に格納されます。このいずれでもサーバー側での暗号化をオプションとして使用でき、格納中のデータを保護することができます。暗号化機能は、特に追加で構成を行わなくても HDInsight と透過的に連携します。Azure Data Lake Store では、サービスが管理する暗号化キーを使用することも、Azure Key Vault でユーザー自身がキーを管理することも可能です。Azure Key Vault を利用すると、キーはハードウェアセキュリティモデルで保護され、いつでもキーへのアクセスを無効にすることができます。

これらの高度なセキュリティ機能は、10 月からパブリックプレビューとして提供されます。

LLAP を使用した最新の Hive により HDInsight でデータウェアハウス並みのスピードを実現

マイクロソフトは Hive の高速化プロジェクトに開始当時から参加し、Stinger (英語) や Tez のプロジェクトに協力して Hive クエリの 100 倍のパフォーマンス向上に貢献してきました。今回 HDInsight は、Stinger.next (英語) イニシアティブから派生した LLAP (Long Lived and Process) を採用した最初のクラウド Hadoop ソリューションとなりました。ビッグデータに対するクエリに 1 秒未満で応答し、従来の Hive よりも 25 倍高速化されています。

LLAP ではインメモリで実行中のデータを暗号化した状態のまま維持しながら、Hadoop クラスター内で弾力的にスケーリングすることができます。また、MapJoin の高機能化、MapJoin のベクトル化の改良、完全にベクトル化されたパイプライン、コストに基づく最適化の改良など、Hive 実行エンジンの機能強化も多数組み込まれています。これらの LLAP の機能強化に加えて、最新バージョンの Hive では型変換の高速化、動的パーティション分割の最適化、テキストファイルでのベクトル化サポートなどが実装されています。こうした機能強化の結果、LLAP では Hive on Tez と比べて最大 25 倍の高速化が実現され、ビッグデータに基づいたインタラクティブな BI やレポート作成という新たなシナリオに対応可能になります。

このほか、Simba とのパートナーシップを通じて Azure HDInsight 用 ODBC ドライバーが提供されます。これにより、Power BI、Tableau、QlikView などの世界基準の BI ツールで Azure HDInsight を使用できるようになり、ビジネスアナリストは好みのツールでビッグデータからインサイトを取得できます。

図 1: Hortonworks が hive-testbench リポジトリを使用して 15 のクエリを実行した TPC-DS ベンチマークテストの結果。詳細はこちら (英語)。

Spark への継続的な取り組みで SLA 付きのフルマネージド Spark 2.0 を提供

Spark 2.0 は、“Project Tungsten” でコアクエリエンジンを全面的に見直したメジャーリリース版であり、最新のコンパイラ機能を搭載し、キャッシュ効果を利用するベクトル化コンピューティングを実行できるようにするなどのアップグレードが施されました。このアップグレードにより、Spark 2.0 では既存の高速プラットフォームでさらに最大 10 倍高速なパフォーマンスが実現されています。ほかにも、SQL 構文のサポート拡充やストリーミングエンジンの改良によって、リアルタイムソリューション構築が簡素化し、機械学習パイプラインの機能が向上し、SparkR アルゴリズムのサポートが拡充されました。また、マイクロソフトと Hortonworks はお客様のご要望にお応えして 100 か所を超える修正 (英語) を行い、Spark 2.0 で運用環境での安定性を向上させています。

さらに Apache HBase for HDInsight の最新リリースに合わせて Spark-HBase コネクタが導入され、Spark SQL のパフォーマンスと機能を HBase へのクエリで使用できるようになりました。これにより、NoSQL データベースに存在するあらゆるデータで高度な分析を実行できます。

最新の Hortonworks Data Platform 2.5 と Spark 2.0 は、どちらも 9 月 29 日から Azure HDInsight で使用できます。LLAP を使用する Hive は、新しい種類のクラスターとしてパブリックプレビューで提供されます。

Zeppelin ノートブックで新しいデータサイエンスエクスペリエンスを実現

マイクロソフトは、だれもがビッグデータを利用できるようにすることを目標に掲げ。Spark for Azure HDInsight では、IntelliJ で ETL ジョブを実行するデータエンジニア、R Server や Jupyter Notebook を実験に使用するデータサイエンティスト、Power BI や Tableau、SAP Lumira、Qlik を使ってダッシュボードを作成するビジネスアナリストなど、さまざまなユーザーが Spark を生産的に使用できるようなエクスペリエンスを設計しました。

HDInsight で Hortonworks Data Platform 2.5 をサポートするにあたり、9 月 29 日より Zeppelin ノートブック (英語) の標準サポートの提供を開始しました。これによりデータサイエンティストは、コード、統計式、視覚化機能などさらに多くのオプションを組み合わせてデータの背景を詳しく説明できます。

サードパーティの ISV アプリケーションを HDInsight と一緒に簡単にセットアップ

大規模な Hadoop エコシステムの中には独立系ソフトウェアベンダー (ISV) の活発な市場があり、企業はそこで提供されている付加価値の高いソリューションを利用することで、データを容易に準備したり、データを視覚化したり、高度なセキュリティソリューションやストリーミングソリューションを実現したりしています。これらのアプリケーションはこれまでクラスター外で実行されていたため、個別に仮想マシンをセットアップする必要があり、Hadoop クラスターへの接続にも制限がありました。Azure HDInsight では、Datameer などの ISV のアプリケーションを直接 HDInsight クラスターで実行 (英語) できるため、事前に ISV アプリケーションとの統合やチューニングが済んでいる状態の Hadoop クラスターや Spark クラスターをすぐにセットアップすることができます。

Datameer の CEO を務める Stefan Groschupf 氏は次のように述べています。「Azure HDInsight アプリケーションプラットフォームは、これまでにない堅牢性と安定性に優れたフレームワークであり、Datameer デプロイメントの構成やテストをクラウドで迅速に行えます。当社ではこの柔軟性を最大限に活用し、自社ソリューションの各種デプロイメントオプションやマーケティング用の材料に対して同じポータル内で反復テストを実施しています。HDInsight は、圧倒的な容易さと速さでクラウドベースのソリューションを市場に投入することができます。パートナーとして提携したことで、HDInsight アプリケーションプラットフォームを通じてお客様とのつながりが生まれ、時間をかけずに Datameer を HDInsight でお試しいただけるようになりました」。

本日、Azure HDInsight ISV プログラムに Cask と StreamSets が新たなパートナーとして参加することが発表されました。Cask (英語) は、データパイプラインの視覚的な開発、実行、自動化、運用を実現する拡張可能なセルフサービス型のオープンソースフレームワークを提供しています。一方、StreamSets (英語) が提供する Dataflow Performance Manager では、1 つのウィンドウからビッグデータのデータフローを管理できるため、企業は転送中のあらゆるデータをマッピングしたり計測することができます。

今週、ビッグデータ関連では、Strata + Hadoop World の話題で持ち切りでした。このイベントはそれだけこの業界やコミュニティにとって大きなものだったと思います。データ処理関連の新たなアイデアやイノベーションが世界中で毎日のように生み出されていることを考えるだけでわくわくします。マイクロソフトもその流れに乗ってデータソリューションのイノベーションを推し進め、お客様にシンプルながらも強力な機能を提供し、クラウドでお好きなツールやプラットフォームを使用していただけるようにしたいと考えています。

Hadoop をエンタープライズ クラスのクラウド ソリューションに: Azure HDInsight 関連の新しいセキュリティ機能、パフォーマンス、ISV ソリューションを提供

マネージドのクラウド Hadoop ソリューションとして最高レベルのセキュリティを実現

認証と ID 管理がわずか数クリックで

一元的なセキュリティ ポリシーの管理と監査を使用した承認