Strata で HDInsight と DocumentDB の新機能を発表

執筆者: Dharma Shukla (Distinguished Engineer & General Manager (OSS Analytics and NoSQL))

このポストは、3 月 15 日に投稿された Announcing new capabilities of HDInsight and DocumentDB at Strata の翻訳です。

 

今週サンノゼで開催される Strata + Hadoop World (英語) において、マイクロソフトは Azure HDInsightAzure DocumentDB の新機能を発表します。Azure HDInsight は、すべてのオープン ソース分析ワークロードを大規模で実行可能なフルマネージド型の OSS 分析プラットフォームで、エンタープライズ クラスのセキュリティと SLA が提供されます。一方、Azure DocumentDB は世界規模のフルマネージド NoSQL データベース サービスです。マイクロソフトは、この 2 つのサービスを緊密に統合し、開発者が膨大な量のデータを低レイテンシかつ世界規模でシームレスに処理できるようにすることを目指しています。

DocumentDB に関する発表

DocumentDB は、マイクロソフトが提供するグローバル分散データベース サービスです。世界規模のアプリケーション開発に対応するように設計されており、任意の数のリージョン間でスループットとストレージの両方を弾力的にスケーリングできます。このサービスでは、包括的な SLA によって、99 パーセンタイルの処理における 10 ミリ秒未満の低レイテンシ、99.99% の高可用性、予測可能なスループット、明確に定義された複数の整合性モデルが保証されます。DocumentDB では、スキーマに依存せず、書き込みに最適化されたデータベース エンジン (英語) により、取り込んだすべてのデータに対して既定でインデックスが自動的に作成され、規模にかかわらず SQLMongoDBJavaScript 統合言語クエリで利用することができます。Azure の基本サービスの 1 つである DocumentDB は、長年にわたってマイクロソフト サービスのバックエンドとして汎用的に使用されており、2015 年の一般提供開始以来、DocumentDB は Azure の中でも特に成長が著しいサービスとなっています。

Apache Spark と DocumentDB によるリアルタイムのデータ サイエンス

Strata では、DocumentDB 用 Spark コネクタ (英語) を発表する予定です。このコネクタは、DocumentDB のグローバル分散データに対するリアルタイムのデータ サイエンスやデータ探索を可能にするものです。Apache Spark を Azure DocumentDB に接続すると、DocumentDB を使用してデータをすばやく保持および取得できるため、お客様が目まぐるしく変化するデータ サイエンスの問題を迅速に解決することができます。この Spark-DocumentDB コネクタは、DocumentDB で管理されるネイティブのインデックスを効率的に活用し、IoT、データ サイエンス、分析などのシナリオ (英語) において、急速に変化するグローバル分散データに対して、分析の実行時に更新可能な列、述語によるプッシュダウン フィルター、データ サイエンスの高度な分析を利用できるようにします。Spark-DocumentDB コネクタは Azure DocumentDB Java SDK (英語) を使用しています。ぜひ今すぐ詳細を確認 (英語) し、GitHub (英語) から Spark コネクタをダウンロードしてお試しください。

Spark

SLA 付きの高忠実度 DocumentDB 用 MongoDB API の一般提供を開始

DocumentDB のアーキテクチャでは、複数のデータ モデル、ワイヤ プロトコル、API がネイティブにサポートされます。このたび、MongoDB 用 DocumentDB API一般提供開始 (英語) が発表されました。これにより、MongoDB をベースに構築された既存のアプリケーションは、DocumentDB をシームレスにターゲットにして、MongoDB のクライアント ドライバーとツールチェーンを引き続き使用することができます。そのため、引き続き MongoDB API を使用しながら DocumentDB に簡単に移行できるほか、エンタープライズ クラスの包括的な SLA、ターンキー方式のグローバル分散処理、セキュリティ、コンプライアンス、フルマネージド サービスが提供されます。

DocumentDB

HDInsight に関する発表

クラウド ファーストの Hortonworks Data Platform 2.6

マイクロソフトのクラウド ファースト戦略はお客様やアナリストの皆様にご好評いただいており、最近では Forrester Wave の Big Data Hadoop Cloud Solutions 部門Gartner Magic Quadrant の Data Management Solutions for Analytics 部門 (英語) で「Leader」に選出されました。エンタープライズ クラスの SLA 付きの HDInsight などのフルマネージド クラウド サービスを運用することで、お客様は Hadoop や Spark の最新製品を必要に応じてデプロイできます。このような取り組みの一環として、オンプレミス版のリリース前から HDInsight で最新の Hortonworks Data Platform 2.6 を継続的に利用できるようになります。Hadoop および Spark ワークロードを実行するクラウドの重要性が高まる中で、Hortonworks によるクラウド ファーストの取り組み (英語) は特に大きな意義を持っています。

「Hortonworks は、クラウドに移行される Hadoop 関連のワークロードやアプリケーションが増加していることを受けて、HDP 2.6 以降で「クラウド ファースト」戦略を採用し、オンプレミス版の提供開始時期と同時またはそれ以前からクラウド プラットフォームの Azure HDInsight で Hortonworks のプラットフォームを利用できるようにします。マイクロソフトと Hortonworks のパートナーシップにより、近日中に Azure HDInsight のお客様にいち早く HDP 2.6 の最新技術をお届けできることを嬉しく思います」- Hortonworks、共同創業者、Arun Murthy 氏

マネージド クラウドとして最高レベルのセキュリティを誇る Hadoop

昨年ニューヨークで開催された Strata + Hadoop World Conference では、HDInsight で実行する Hadoop ワークロードに認証、承認、監査、暗号化の最高レベルのセキュリティ機能をネイティブに使用できるようになったことを発表しました。今回は、これらのセキュリティ機能がインタラクティブ Hive (LLAP を利用) や Apache Spark などの他のワークロードに拡張されました。これにより、これらの広く使用されているワークロードに Apache Ranger (英語) を使用できるようになり、一元的なポリシー管理や管理ポータルを通じてきめ細かいアクセス制御ポリシーを作成、保守することができます。また、使い慣れた Apache Ranger のユーザー インターフェイスで監査レコードを詳細に分析できるようになりました。

SLA 付きの新しいフルマネージド Apache Spark 2.1

Azure HDInsight 用 Apache Spark の最新リリースは、SLA によって 99.9% の可用性が保証される市場で唯一のフルマネージド Spark 2.1 クラスターです。さらに、Azure Event Hubs への Spark の統合と、Kafka for HDInsight の構造化ストリーミング コネクタを利用して、リアルタイムのストリーミング ソリューションをサポートする機能が導入されました。これにより、これらの Azure サービスに取り込まれる膨大な数のリアルタイム イベントを Spark で分析して、IoT やその他のリアルタイム シナリオを実現できます。これは、DirectStreaming のサポートによって実現したもので、Event Hubs からのデータを処理する際に Spark のストリーミング ジョブのパフォーマンスと信頼性が向上します。このソース コードは GitHub (英語) で公開されており、バイナリでも配布されています。

Zeppelin や ISV とのパートナーシップによる新しいデータ サイエンス エクスペリエンス

マイクロソフトは、だれもがビッグ データを利用できるようにすることを目指しており、Visual StudioEclipseIntelliJ のサポートを利用して ETL ジョブを実行するデータ エンジニアや、Microsoft R ServerJupyter Notebook のサポートを利用して実験を行うデータ サイエンティスト、Power BI、Tableau、SAP Lumira、Qlik のサポートを利用してダッシュボードを作成するビジネス アナリストなど、さまざまなユーザーに向けて生産性エクスペリエンスを設計しています。HDInsight で最新の Hortonworks Data Platform 2.6 をサポートするにあたり、データ サイエンティストに広く使用されている Zeppelin ノートブックで Spark 2.1 とインタラクティブ Hive (LLAP) がサポートされます。また、HDInsight プラットフォームで使用可能な既存の ISV アプリケーション群に、人気の高い独立系ソフトウェア ベンダー (ISV) の Dataiku (英語)H20.ai (英語) が追加されました。HDInsight のエッジ ノードの独自の設計により、これらのデータ サイエンス ソリューションは HDInsight クラスターで直接実行できます。事前設定不要で統合およびチューニングされているため、インテリジェントなアプリケーションの作成が容易になります。

インタラクティブ Hive によるデータ ウェアハウス シナリオの実現

マイクロソフトは Apache Hive の高速化プロジェクトに開始当初から参加し、Stinger (英語) や Tez のプロジェクトに協力して Hive クエリの最大 100 倍のパフォーマンス向上に貢献してきました。今回、LLAP (Long Live and Process) を使用した Hive のサポートを発表しました。これにより、クエリのパフォーマンスがさらに最大 25 倍高速化します。最新バージョンの Apache Hive 2.1.1 のサポートにより、クエリの応答時間が 1 秒未満になり、データを移動することなく、すべての企業データのデータ ウェアハウス シナリオを実現できるようになりました。インタラクティブ Hive クラスターでは、広く使用されている BI ツールもサポートされるため、ビジネス アナリストは好みのツールを Hadoop 上で直接実行することができます。

SQL Server CTP 1.4 を発表

近日中に、Windows と Linux の両方で、次期バージョンの SQL Server Community Technology Preview (CTP) 1.4 のプレビューの提供が開始されます。今回のプレビューでは、Linux の SQL Server v.Next が強化されます。また、Windows と Linux の両方で SQL Server v.Next の機能強化により、一時停止可能なオンライン インデックス ビルドで B ツリーの再ビルドがサポートされます。これにより、インデックスの保守のスケジュール設定や復旧の柔軟性が向上します。提供開始時には、ぜひお好みの開発およびテスト環境でこのプレビュー版をお試しください。CTP 1.4 の詳細については、SQL Server v.Next の新機能リリース ノートLinux 向けのドキュメント (英語) を参照してください。

この他にも、来月開催予定の新しいオンライン イベント Microsoft Data Amp (英語) に関する発表がありました。このイベントでは、アプリケーションの技術革新や人工知能の中核としてデータを利用できるようにする取り組みについて、Scott Guthrie と Joseph Sirosh が興味深い最新情報をご紹介する予定です。Mitra Azizirad のブログ記事 (英語) で Microsoft Data Amp の詳細をご確認のうえ、この魅力的なイベントのスケジュールをぜひカレンダーに追加 (英語) してください。

今週サンノゼで開催される Strata + Hadoop World は、業界やコミュニティにとって重大なイベントであり、ビッグ データ関係者の注目を集めています。マイクロソフトは、今後もビッグ データや NoSQL の分野の最新機能を Azure サービスの一部としてネイティブに利用し、容易にアクセスし、高い生産性を発揮できるようにするべく取り組んでまいります。