Azure SQL Data Warehouse へのデータの読み込みがさらに簡単に

執筆者: Casey Karst (Program Manager II, SQL Server and Azure SQL Database)

このポストは、1 月 26 日に投稿された Loading data into Azure SQL Data Warehouse just got easier の翻訳です。

 

Azure SQL Data Warehouse は、ペタバイト規模のデータ ウェアハウスを可能にする SQL ベースのフルマネージド クラウド ソリューションです。柔軟性に優れており、数分でプロビジョニングし、数秒で容量を拡張できます。また、コンピューティングとストレージを個別に拡張できるため、複雑な分析ワークロードを実行するためにコンピューティングをバーストしたり、アーカイブ シナリオ用にウェアハウスをスケールダウンしたりできるほか、定義済みのクラスター構成に固定されることなく、使用状況に基づいて料金を支払うことができます。

2016 年 7 月に一般提供開始 (英語) を発表して以来、マイクロソフトはお客様が短時間で Data Warehouse にデータを移行し、迅速にインサイトを生成して、ビジネスをさらに成長するためのお手伝いができるよう継続的に取り組んできました。Azure SQL Data Warehouse は、SQL エンジンに組み込まれている PolyBase 機能を利用してデータの読み込みシナリオを解決します。Azure SQL Data Warehouse の超並列処理 (MPP) アーキテクチャ全体を効果的に活用することで、Azure Blob Storage から Data Warehouse への最も高速な読み込みを実現します。先日マイクロソフトでは、Azure Data Factory Copy Wizard を使用して 1 TB のデータを 15 分で Azure SQL Data Warehouse に読み込む方法を公開しました。

このしくみを理解していただけるよう、ここでは、SQL Data Warehouse のアーキテクチャの概要をご説明したいと思います。SQL Data Warehouse は、ユーザーが接続してクエリを送信する制御ノードと、処理を実行する計算ノードから構成されます。従来の読み込みツールでは、制御ノードを通じて個々の行が読み込まれ、その後、データの分散方法に応じて行が適切な計算ノードにルーティングされます。このとき、制御ノードは受信した各レコードを読み取る必要があるため、パフォーマンスが低下する可能性があります。一方、PolyBase では、計算ノードを使用してデータを並列して読み込むため、パフォーマンスが向上し、より迅速にデータからインサイトを入手することができます。

Parallel Loading with PolyBase

区切りテキスト ファイルによる UTF-16 のサポート

PolyBase を使用して Azure SQL Data Warehouse にデータを簡単に読み込むことができるように、区切りテキスト ファイル形式で新たに UTF-16 エンコード ファイルがサポートされるようにしました。

このことがなぜ重要かというと、UTF-16 エンコード ファイルが BCP.exe の既定のファイルのエンコード形式であるためです。オンプレミスのデータ ウェアハウスから Azure Blob Storage に UTF-16 形式のデータをエクスポートしているお客様は多くいらっしゃいますが、これまではエクスポート後にスクリプトを使用してデータを UTF-8 形式に再エンコードしなければならなかったため、余計に時間がかかり、データの重複も避けられませんでした。今回 UTF-16 がサポートされたことで、これまでのようにエンコード変換を行う必要がなくなり、Azure Blob Storage から SQL Data Warehouse にファイルを直接移動できるようになりました。

UTF-16 テキスト ファイル形式をインポートするには

PolyBase を使用して UTF-16 ファイルを SQL Data Warehouse にインポートするには、エンコード オプションを UTF-16 に設定したファイル形式を新規作成します。フィールド終端文字、日付形式、Reject 値などの追加の形式オプションはすべて、UTF-16 と UTF-8 の両方のエンコードでサポートされます。

以下は、UTF-16 ファイルを読み取るパイプ区切りテキスト ファイル形式の例です。

UTF16 File

次のステップ

この記事では、PolyBase の概要、PolyBase が SQL Data Warehouse に最適なデータ読み込みツールである理由、UTF-16 エンコード ファイル形式のサポートについてご紹介しました。これらは現在、SQL Data Warehouse を提供している世界中の Azure リージョンでご利用いただけます。オンプレミスのデータ ウェアハウスのクラウド移行をご検討中の場合はぜひお試しください。

関連情報

Azure SQL Data Warehouse の概要 SQL Data Warehouse のベスト プラクティス SQL Data Warehouse へのデータの読み込み MSDN フォーラム (英語) Stack Overflow フォーラム (英語)

機能に関するご要望

Azure SQL Data Warehouse の機能に関するご要望は、UserVoice (英語) から SQL Data Warehouse チームにお知らせください。