Azure Virtual Machines の HB シリーズ VM でクラウドでのスーパー コンピューティングが飛躍的に進化

執筆者: Evan Burness (Principal Program Manager, Azure HPC)

このポストは、2019 年 5 月 26 日に投稿された HB-series Azure Virtual Machines achieve cloud supercomputing milestone の翻訳です。

 

新しい HPC 向けクラウド仮想マシンで 10,000 コアまでスケーリングが可能に

Azure Virtual Machine HB シリーズで、パブリック クラウドで初めて MPI ベースのハイ パフォーマンス コンピューティング (HPC) ジョブを 10,000 コアにまでスケーリングできるようになりました。長い間、このレベルのスケーリングは、世界でも有数のごく限られた強力なスーパー コンピューターの領域でのみ実現可能と考えられてきましたが、それが Azure ユーザーであればだれでも利用できるようになりました。

HB シリーズ仮想マシン (VM) は、広いメモリ帯域幅を必要とする HPC アプリケーションに最適化されています。HB シリーズ VM は、このクラスのワークロードとしては Azure や他社パブリック クラウドのどの製品よりも高いパフォーマンス、スケーラビリティ、コスト効率を備えています。

この HB シリーズでは AMD EPYC プロセッサを採用しており、260 GB/秒を超えるメモリ帯域幅、128 MB の L3 キャッシュ、SR-IOV ベースの 100 Gb/秒 InfiniBand を搭載しています。また、メモリ負荷が高い単一の分散型コンピューティング ワークロードで、最大 18,000 基の物理 CPU コア、67 TB を超えるメモリを使用できます。

HB シリーズは、HPC 分野の広いメモリ帯域幅が求められるワークロードにおいてこれまでは不可能と考えられていたさまざまなことを実現できます。Azure ベースの VM の性能は、ベア メタル製品や現在 HPC 市場の中心を占めているオンプレミス製品と同等かそれ以上で、コストの面でも高い競争力を誇ります。

世界レベルの HPC テクノロジ

HB シリーズ VM では、HPC ユーザー向けの AMD EPYC 7000 シリーズ CPU がクラウドで初めて実装されました。AMD EPYC は他の x86 ソリューションと比較してメモリ帯域幅が 33% 広く、先進的な Power および ARM の両サーバー プラットフォームよりも広くなっています。これに関連して、HB シリーズ VM のメモリ帯域幅は、1 コアあたりのメモリ容量が同等の競合他社クラウド サービスと比較すると 80% 広い 263 GB/秒となっています。

HB シリーズ VM は 60 基の非ハイパースレッディング CPU コアと 240 GB の RAM を搭載していて、各コアのベースクロックは 2.0 GHz、ブースト時には全コアのクロックが 2.55 GHz となります。また、HB シリーズ VM は 700 GB のローカル NVMe SSD を備えていて、新しい Azure P60/P70/P80 Premium Disks などの Managed Disks を最大 4 基までサポートします。

HB シリーズ VM 最大の特長は Mellanox の 100 Gb/秒 InfiniBand で、SR-IOV を利用した専用バックエンド NIC の Mellanox ConnectX-5 により、ベア メタル環境でよく使用されているものと同じ OFED (英語) ドライバー スタックを使用可能です。また、HB シリーズ VM の MPI の待機時間は 2.1 マイクロ秒程度に抑えられており、一貫性、帯域幅、メッセージ処理速度もベア メタル InfiniBand デプロイと同等です。

クラウドでの HPC スケーリング性能

Azure HPC チームは、早期承認テストの一環として、広く利用されている各種 HPC アプリケーションのベンチマークを実施しました。そのような一般的なアプリケーションの 1 つが計算流体力学 (CFD) のシミュレーションです。HB シリーズ VM のスケーリング能力を検証するため、Star-CCM+ ユーザーに提供されている Le Mans 100 Million Cell モデルを使用してテストを実施したところ、以下のような結果が得られました。

Graph of Siemens Star-CCM+ V.14.02 Le Mans 100M couple scaling - Speed up vs nodes Graph of Siemens Star-CCM+ V.14.02 Le Mans 100M couple scaling - parallel efficiency vs nodes Table showing number of hosts, cores, PPN, sample elapsed time, speed up node, and parallel efficiency Table showing number of hosts, cores, PPN, sample elapsed time, speed up node, and parallel efficiency

 

Le Mans 100 Million Cell モデルでのテストは複数の構成で実施し、最大規模は VM 256 台、CPU コア数 11,520 基でした。このテストでスケーリング効率が最大になったのは NUMA ドメインあたりの MPI ランクが 2 の場合で、最大値は 71.3% となりました。テスト全体で最大のパフォーマンスが得られたのは、NUMA ドメインあたりの MPI ランクが 3 の場合でした。さまざまな要素がありますので、その中からお客様にとって特に重要なメトリックにご注目ください。

Azure で HPC を実行するメリット

HB シリーズ VM 独自の機能と高いパフォーマンスは、ハイ パフォーマンス コンピューティングを利用する科学者やエンジニアがこれまで不可能だったレベルの研究や生産性を実現するうえで、大きなメリットとなります。航空宇宙、自動車、防衛、金融サービス、重機、製造、石油・ガス、公的学術機関、政府研究機関などのさまざまな組織から、この HB シリーズにより製品パフォーマンスが向上し、詳細なシミュレーション モデルにより新しいインサイトが得られたというフィードバックが寄せられています。

Azure は Rescale と提携し、複雑なコンピューティング シミュレーションや分析に向けた HPC リソースを提供しています。今回リリースされた Azure Virtual Machines の HB シリーズ VM では、新しい "Amber" コンピューティング リソースとして Rescale の ScaleX® を採用しています。

Rescale で CTO を務める Adam McKenzie 氏は次のように述べています。「Rescale は、市場で唯一のフル マネージド HPC クラウド サービスを実現し、オンプレミスの HPC ワークロードをクラウドにスムーズに移行する方法を構築しています。当社では、HPC に特化したクラウド コンポーネントとしてマイクロソフトがこれを採用することに大きな期待を寄せていました。今回 Azure に追加された HB シリーズ VM では、オンプレミスのスーパー コンピューターに匹敵するコストパフォマンスで MPI ワークロードを数万コアまでスケーリングすることができます」

提供状況

Azure Virtual Machines の HB シリーズ VM は、現時点では米国中南部と西ヨーロッパにて提供中で、近日中に提供地域の拡大を予定しています。