Jupyter Notebook で HDInsight Spark のジョブとデータをビジュアルで把握する

 執筆者: Ruixin Xu (Senior Program Manager, Big Data Team)  このポストは、2019 年 4 月 29 日に投稿された Understanding HDInsight Spark jobs and data through visualizations in the Jupyter Notebook の翻訳です。    データ セットを迅速に調査したり、トレンドを分析したり、機械学習モデルのテストを行う際に便利なのが、HDInsight Spark クラスター上の Jupyter Notebook です。しかし、Spark ジョブや中間データの状態が追跡できなければ、Jupyter Notebook 内で何が行われているかをモニターし最適化することは難しくなります。  これに対処するために、マイクロソフトは最先端のジョブ実行と可視化のエクスペリエンスを HDInsight Spark のクラスター内の Jupyter Notebook に追加することにしました。そして本日、リアルタイムの Spark ジョブ進行状況インジケーター、PySpark DataFrame での matplotlib のネイティブ サポート、セル実行状態インジケーターをリリースしました。  Spark ジョブ進行状況インジケーター  ノートブック内でインタラクティブな Spark ジョブを実行すると、リアルタイムの進行状況バーを備えた Spark ジョブ進行状況インジケーターが表示され、ジョブの実行状態を把握できます。タブを切り替えると、アクティブなタスクと割り当てられたコアのリソース使用率ビューを表示したり、ガント チャートでワークロード全体のジョブ、ステージ、タスクを確認したりできます。  PySpark DataFrameで matplotlib をネイティブ サポート これまで PySpark は matplotlib…