AMDは、Instinct MI200やZen 4のロードマップなど、3D V-Cacheを搭載した同社の最新のEPYC Milan-Xプロセッサを公式に発表しました。ただし、チップメーカーはキャッシュスタックチップの仕様をリストしていませんでした。 しかし、MicrosoftはMilan-Xベンチマークを共有して、3D V-Cacheがテーブルにもたらすパフォーマンスの向上を示します。
Microsoftは、Milan-Xを利用して、EPYC 7V73Xプロセッサのペアに基づく新しいAzure HBv3シリーズVMに電力を供給します。各プロセッサは、サーバーあたり合計128コアで最大64のZen 3コアを提供します。ただし、各サーバーの8つのコアは、Azureハイパーバイザーやその他のオーケストレーションルーチンにフィードするために保有されます。その結果、マイクロソフトは、コア数が異なる最大5つの構成(120コア、96コア、64コア、32コア、および16コア)をお客様に提供します。 EPYC 7V73Xは、最大3.5GHzのピーククロック速度を備えます。
Milan-Xは、チップあたり最大768MBのL3キャッシュ(L3 + 3D V-Cache)を備えているため、デュアルソケット構成では、システムごと、またはMicrosoftの場合はVMごとに最大1.5GBのL3キャッシュが提供されます。論理的には、L3の割り当てはセットアップによって異なります。たとえば、16コアVMはコアあたり96MBにアクセスできますが、32コアセットアップはコアあたり48MBに低下します。いずれにせよ、Milan-XのL3容量は、現在のMilanチップの3倍のアップグレード、または以前のRomeプロセッサの6倍の改善を表します。
Azure HBv3の他のハードウェアは変更されていません。 350 GBpsの帯域幅で448GBのメモリがまだあります(STREAM TRIADで測定)。さらに、2つの900GB NVMe SSDは、それぞれ最大6.9GBpsと2.9GBpsの読み取り速度と書き込み速度の高速ストレージを提供し、Mellanox ConnectX-6 NICは200 Gbpsイーサネット接続を提供します。
Microsoft Azure HBv3の仕様
VM Size | 120 CPU cores | 96 CPU cores | 64 CPU cores | 32 CPU cores | 16 CPU cores |
---|---|---|---|---|---|
VM Name | standard_HB120rs_v3 | standard_HB120- 96rs_v3 | standard_HB120- 64rs_v3 | standard_HB120- 32rs_v3 | standard_HB120- 16rs_v3 |
InfiniBand | 200 Gb/s HDR | 200 Gb/s HDR | 200 Gb/s HDR | 200 Gb/s HDR | 200 Gb/s HDR |
Peak CPU Frequency | 3.5 GHz | 3.5 GHz | 3.5 GHz | 3.5 GHz | 3.5 GHz |
RAM per VM | 448 GB | 448 GB | 448 GB | 448 GB | 448 GB |
RAM per core | 3.75 GB | 4.67 GB | 7 GB | 14 GB | 28 GB |
Memory B/W per VM | 350 GB/s | 350 GB/s | 350 GB/s | 350 GB/s | 350 GB/s |
Memory B/W per core | 2.91 GB/s | 3.65 GB/s | 5.46 GB/s | 10.9 GB/s | 21.9 GB/s |
L3 Cache per VM | 1.5 GB | 1.5 GB | 1.5 GB | 1.5 GB | 1.5 GB |
L3 Cache per core | 12.8 MB | 16 MB | 24 MB | 48 MB | 96 MB |
SSD Perf per VM | 2 * 960GB NVMe – 6.9 GB/s (Read) / 2.9 GB/s (Write), 200K IOPS (Read) / 190K IOPS (Write) 2 * 960GB NVMe – 6.9 GB/s (Read) / | 2.9 GB/s (Write), 200K IOPS (Read) / 190K IOPS (Write) 2 * 960GB NVMe – 6.9 GB/s (Read) / | 2.9 GB/s (Write), 200K IOPS (Read) / 190K IOPS (Write) 2 * 960GB NVMe – 6.9 GB/s (Read) / | 2.9 GB/s (Write), 200K IOPS (Read) / 190K IOPS (Write) 2 * 960GB NVMe – 6.9 GB/s (Read) / | 2.9 GB/s (Write), 200K IOPS (Read) / 190K IOPS (Write) |
Microsoftは、キャッシュが大きいと、有効なメモリ帯域幅と遅延が明らかに増加することを指摘しました。 計算流体力学(CFD)、明示的な有限要素解析(FEA)、気象シミュレーション、EDA RTLシミュレーションなどのワークロードは、Milan-XによるL3キャッシュの寛大な支援の恩恵を受けます。 逆に、ピークFLOPS、クロック速度、またはメモリ容量に依存するワークロードは、大きなL3キャッシュの影響を受けません。 これらには、分子動力学、EDAフルチップ設計、EDA寄生抽出、および暗黙の有限要素解析が含まれます。
その結果、Milan-X(EPYC 7V73X)のメモリレイテンシは、現在の世代のMilan(EPYC 7V13)よりも42%から50%低いことが明らかになりました。Milan-Xは、メモリコントローラがプロセッサに移行して以来、メモリレイテンシの点で相対的なパフォーマンスの最大の飛躍の1つを示します。Microsoftの結果は、Milan-XがDRAMアクセスの遅延を改善したことを示すものではないことに言及することが重要です。
Microsoftによると、大きなキャッシュはより高いキャッシュヒット率を可能にし、L3とDRAMのレイテンシーの組み合わせを作成して、効果的な実世界の結果を改善します。AMDがL3キャッシュをスタックした方法により、L3レイテンシー分布の幅が拡大しました。それにもかかわらず、Microsoftは、Milan-XはMilanと同じ球場でL3メモリレイテンシを備えているべきだと考えています。最悪のシナリオでは、Milan-XのL3レイテンシがわずかに遅くなる可能性があります。
Milan-Xの記憶も同様の話です。Milan-Xは、STREAM TRIADベンチマークで約358GB / sのスループットを実現します。結果は、チャネルあたり1つのDIMMセットアップでDDR4-3200メモリとペアになっているMilanチップを備えた従来のデュアルソケットサーバーと同じです。
Microsoftは、EPYC 7V73Xをそのペースに乗せ、Milan-XチップをEPYC Milan、EPYC Rome、およびXeon Platinum(Skylake)プロセッサを搭載した同社のAzure HBv3 VMと比較しました。 言うまでもなく、Milan-Xのパフォーマンスは驚くべきものです。
64 VM構成では、Milan-XはMilanよりも最大77%高いパフォーマンスを実現し、Ansys Fluent 2021 R1のf1_racecar_140モデルではSkylakeよりも最大257%高速でした。combustor_830mモデルでは、Milan-Xは、128 VM配置で、MilanおよびSkylakeよりもそれぞれ16%および131%高いパフォーマンス数値を示しました。
OpenFOAM Motorbikeベンチマークでは、Milan-Xは8 VMセットアップでMilanよりも最大60%速く、Skylakeよりも305%高速でした。Milan-Xは、前モデルよりも2桁のパフォーマンスの向上、Skylakeよりも3桁の機能強化を誇っていたため、この傾向は明らかでした。
AMDの3DV-Cacheの実装のおかげで、Milan-Xのスケーリング効率はチャートから外れていました。参照点としてf1_racecar_140モデルを使用したAnsys Fluent 2021 R1ベンチマークを利用して、Milan-Xは、64個のVMを1個のVMと比較した場合に最大200%のスケーリング効率を示しました。つまり、Milan-Xを搭載した64台のHBv3 VMは、1つのHBv3インスタンスを使用する場合の半分の時間で作業を完了します。結局のところ、顧客は、127倍速いソリューション時間の割合でVMコストを50%削減するというメリットを享受できます。
マイクロソフトは常に、お客様に直線的なパフォーマンスの向上を提供することに誇りを持っています。HPCのゴールドスタンダードと見なされている線形効率は、1つのVM(または問題を解決するためのVMの最小数)と比較して、パフォーマンスがコストとともに線形に増加する場合です。Milan-Xを使用すると、マイクロソフトのお客様は、ソリューション時間を大幅に短縮し、VMコストを削減できます。