Jupyter Notebook で HDInsight Spark のジョブとデータをビジュアルで把握する

Article
05/09/2019

執筆者: Ruixin Xu (Senior Program Manager, Big Data Team)

このポストは、2019 年 4 月 29 日に投稿された Understanding HDInsight Spark jobs and data through visualizations in the Jupyter Notebook の翻訳です。

データセットを迅速に調査したり、トレンドを分析したり、機械学習モデルのテストを行う際に便利なのが、HDInsight Spark クラスター上の Jupyter Notebook です。しかし、Spark ジョブや中間データの状態が追跡できなければ、Jupyter Notebook 内で何が行われているかをモニターし最適化することは難しくなります。

これに対処するために、マイクロソフトは最先端のジョブ実行と可視化のエクスペリエンスを HDInsight Spark のクラスター内の Jupyter Notebook に追加することにしました。そして本日、リアルタイムの Spark ジョブ進行状況インジケーター、PySparkDataFrame での matplotlib のネイティブサポート、セル実行状態インジケーターをリリースしました。

Spark ジョブ進行状況インジケーター

ノートブック内でインタラクティブな Spark ジョブを実行すると、リアルタイムの進行状況バーを備えた Spark ジョブ進行状況インジケーターが表示され、ジョブの実行状態を把握できます。タブを切り替えると、アクティブなタスクと割り当てられたコアのリソース使用率ビューを表示したり、ガントチャートでワークロード全体のジョブ、ステージ、タスクを確認したりできます。

PySpark DataFrameで matplotlib をネイティブサポート

これまで PySpark は matplotlib をサポートしていなかったため、何かをプロットするには、まず PySpark DataFrame を Spark コンテキストからエクスポートしてそれをローカルの Python セッションに変換し、そこからプロットする必要がありました。今回のリリースでは、PySpark DataFrame で matplotlib をネイティブにサポートし、ローカルで使用する場合と同じように PySpark DataFrame で直接 matplotlib を使用できるようになりました。これにより、クラスターの Spark コンテキストとローカルの Python セッション間でデータをやり取りする必要がなくなります。

セル実行状態インジケーター

セルの下にその実行状態が逐一表示され、現在の進行状況が確認しやすくなりました。セルの実行が完了すると、実行サマリーとしてトータルの実行時間と終了日時が表示され、後からでも確認できるようそこに保存されます。

使用を開始するには

これらの機能は、HDInsight Spark Jupyter Notebook に組み込まれています。利用を開始するには、Azure Portal から HDInsight にアクセスし、Spark クラスターを開いて、クイックリンクから Jupyter Notebook を選択してください。

フィードバックのお願い

皆様のご意見やご感想をお待ちしております。機能に関するご要望、ご質問、ご提案などがございましたら、cosctcs@microsoft.com までお寄せください。バグのご報告は、チケットを発行 (英語) してください。

さらに詳しい情報については、以下をご確認ください。

Azure HDInsight の Apache Spark クラスター上の Jupyter Notebook 用カーネル(英語)