マイクロソフトが Data Accelerator をオープン ソース化: 大規模なストリーミング パイプラインの構成が容易に

執筆者: Geoff Staneff (Principal Program Manager, Microsoft)

このポストは、2019 年 4 月 18 日に投稿された Microsoft open sources Data Accelerator, an easy-to-configure pipeline for streaming at scale の翻訳です。

 

今回の記事は、マイクロソフトでプリンシパル グループ エンジニアリング マネージャーを務める Dinesh Chandnani と共同で執筆しました。

データ パイプラインの構築は、初めての方には簡単なことではありません。プロジェクト開始時の決定によって選択肢が狭められていたことに、最初のデプロイからずいぶん経ってから気付くこともあります。そうならないよう、通常必要とされるのは、そのソリューションに使用できるオプションや機能について学習し、評価するための環境を持つことです。これについて検討した結果、マイクロソフトは社内プロジェクトである Data Accelerator (英語) をオープン ソース化することにしました。

Data Accelerator (英語) はマイクロソフトの開発部門が 2017 年に開始した大規模データ処理プロジェクトです。規模と速度を理由に、最終的には Apache Spark でのストリーミングが採用されました。現在このパイプラインはマイクロソフト全社で運用されています。

マイクロソフトの社外でもこのパイプラインが有効であると考える理由は以下のとおりです。

  • 開発/テスト サイクルが短い: イベント サンプルのクエリをローカル環境で実行できるため、ジョブをクラスターに送信する時間を節約できます。セミコロンの打ち間違いだけのために何分も待たされるようなことがなくなります。
  • 独立した環境でローカルのテストと検出が可能: プロトタイプにコミットする前にテストを実施できます。
  • 設計ベースでルールとクエリを構築: エンドツーエンドの ETL パイプラインの構築に、コーディングや詳細の決定が不要です。
  • SQL-Spark 構文に時間枠設定、参照データ、出力の機能を追加: SQL-Spark 構文のキーワードを拡張し、複雑でエラーの原因になりやすいタスクを簡素化しました。

マイクロソフトの開発部門では、Data Accelerator (英語) を日常的に運用環境で使用しており、継続的にツールチェーンの改良を行っています。ニーズが広がれば、その分このツールセットでできることも増えていきます。ぜひ皆様にもご参加いただき、Data Accelerator (英語) の可能性を広げていけたら嬉しく思います。

Data Accelerator (英語) のオープン ソース化については、Open Source ブログ (英語) で詳しく説明していますので、そちらもぜひチェックしてみてください。