Azure Data Lake Analytics の一般提供を開始

Article
12/07/2016

執筆者: Oliver Chiu (Product Marketing, Hadoop/Big Data and Data Warehousing)

このポストは、11 月 16 日に投稿された Azure Data Lake Analytics now generally available の翻訳です。

このたび、Azure Data Lake Analytics の一般提供が開始されました。パブリックプレビュー (英語) の発表以来、Azure Data Lake は急速に成長している Azure サービスの 1 つで、現在は数千ものお客様にご利用いただいています。今回の一般提供では、エンドユーザーの生産性を向上させるサービス機能を始め、運用環境へのデプロイのためのセキュリティと可用性が強化されています。

Azure Data Lake の概要

ビッグデータソリューションは近年、分析手法が過去データの分析から先見的な予測分析へと移行しています。しかし、導入に際していくつかの課題があり、企業でのビッグデータの活用はいまだに拡大していません。Azure Data Lake は、さまざまな規模、構造、スループットのデータを保存し、あらゆる種類の処理、分析をすべてのプラットフォーム、言語で簡単に実行できるサービスです。これにより、開発者、データサイエンティスト、アナリストのビッグデータの利用を推進します。データの取り込みや保存の複雑さが解消され、ビッグデータをすばやく利用できるようになります。Azure Data Lake には、以下の 3 つのサービスが含まれています。

Azure Data Lake Store (英語): ビッグデータ分析を可能にする無制限のデータレイク
Azure Data Lake Analytics (英語): 超並列のオンデマンドジョブサービス
Azure HDInsight (英語): Cloud Hadoop および Spark のフルマネージドサービス

Azure Data Lake

Azure Data Lake Analytics の概要

Azure Data Lake Analytics サービスは、分散型インフラストラクチャではなく新しい分散型分析ジョブサービスで、動的なスケーリングによりビジネス目標に向けて注力できるようになります。ハードウェアのデプロイ、構成、調整を行う代わりに、クエリを作成してデータを変換し、有用なインサイトを抽出することができます。この分析サービスでは、必要な処理能力を設定するだけで、あらゆる規模のジョブを瞬時に処理できます。料金が発生するのはジョブの実行中のみであるため、コスト効率にも優れています。

また、Azure Data Lake Analytics で提供される統合ビッグデータ開発プラットフォームは、言語、ランタイム、ツール、開発環境、リソース管理、拡張性、セキュリティが統合されているため、開発者や ISV の生産性が大幅に向上します。Azure Data Lake Analytics は、作成、デバッグ、監視、最適化までエンドツーエンドのビッグデータ開発ライフサイクル全工程をサポートします。

瞬時に開始、即座にスケーリング、ジョブごとに支払い

このオンデマンドサービスでは、30 秒以内にビッグデータジョブを処理できます。待機、管理、調整が必要なサーバー、VM、クラスターがないため、インフラストラクチャの心配をする必要がありません。単一のスライダーを使用して、ジョブごとに分析ユニット (AU、処理能力) を 1 から数千まで即座にスケーリングすることができます。また、料金はジョブごとの処理分だけ発生します。このモデルにより、ビッグデータの利用を開始したいと考える開発者の負担は大幅に軽減されます。

超並列プログラムを簡単に開発する

U-SQL はシンプルかつ表現が豊富で拡張可能な言語であり、コードを 1 回作成するだけで自動的に必要な規模に並列化できます。U-SQL は SQL の宣言型の性質と C# の表現力を融合しています。ビッグデータに使用される他の宣言型の SQL ベースの言語では、拡張モデルは後付けで非常に使いにくいですが、U-SQL では、任意の .NET 言語で定義されたユーザー定義型やユーザー定義関数を簡単に利用することができます。

ビッグデータ開発者は、画像、オーディオ、動画、ドキュメントなど、どんな種類のデータにも対応する必要があります。データを処理する際、既存のライブラリは多数ありますが、ビッグデータ言語ですべてをすぐに利用できるわけではありません。U-SQL では、ローカルで開発されていても、NuGet などのリポジトリで公開されていても、.NET ライブラリならすべてシームレスに再利用できるため、あらゆる種類のデータを処理できます。また、R または Python で作成されたコードを U-SQL スクリプトで使用することもできます。 作成したコードを超並列プログラムとしてデプロイすることで、U-SQL と既存のライブラリを使用して、ETL、機械学習、認知科学、機械翻訳、画像処理、センチメント分析など、さまざまなカテゴリのワークロードを簡単にスケールアウトできます。

ビッグデータプログラムを簡単にデバッグ、最適化する

既存のツールを使用している開発者は、データワークロードが増加するにつれて深刻な課題に直面します。パフォーマンスやスケールのボトルネックを解決するには、分散コンピューティングや分散型インフラストラクチャのエキスパートが必要です。たとえば、開発者がパフォーマンスを向上させるためには、クラスター間のデータ移動の時間とコストを慎重に考慮し、クエリを作成し直すか、データを再分割する必要があります。一方で、クラウド分散型プログラムのコードの最適化やエラーのデバッグは、個人の環境でプログラムをデバッグするのと同じくらい簡単です。Azure Data Lake の実行環境では、実行中のプログラムを積極的に分析し、パフォーマンス向上やコスト削減のための推奨事項を提案します。たとえば、プログラムに 1000 AU を要求したものの、50 AU しか必要なかった場合は、50 AU を使用することが推奨され、コストを 20 分の 1 に削減できます。

今回、Visual Studio Code でもこのビッグデータ生産性環境が提供されることになりました。これにより、ユーザーは Windows、Mac OS X、Linux で使用可能な無料のクロスプラットフォームコードエディターでこのような生産性を実現することができます。

分析を仮想化する

Azure SQL Database や Azure SQL Data Warehouse などのリレーショナルソースの最適化されたデータを仮想化し、あらゆるデータを処理します。データを移動することなく、ソースデータの近くに処理を移動することで、クエリは自動的に最適化されるため、パフォーマンスが最大限に向上すると共に、レイテンシが最小限に抑えられます。

ビデオ: U-SQL 統合クエリ (英語)

エンタープライズレベルのセキュリティ、監査、サポート

オンプレミスのセキュリティおよびガバナンスコントロールをクラウドに拡張し、セキュリティや規制遵守のニーズに対応します。シングルサインオン (SSO)、多要素認証、数百万の ID のシームレスな管理などの機能は、Azure Active Directory を通じて組み込まれています。また、ロールベースのアクセス制御や、管理操作および全処理の監査機能は、既定で有効になっています。このビッグデータソリューションでは、99.9% のエンタープライズレベルの SLA が保証されるほか、年中無休 24 時間体制のサポートが提供されます。

Azure Data Lake のセキュリティの概要 (英語)

使用を開始するには

このサービスを開始するには、Azure サブスクリプションを所有しているか、または Azure の無料評価版にサインアップしている必要があります。この条件を満たしているお客様は、入門ガイドの説明に従って操作を進めると、数秒程度で Azure Data Lake Analytics をセットアップし、開始できます。また、Microsoft Virtual Academy (英語) の Data Lake に関する無料のコースもご確認ください。