予想外の動きとして、AMDは今週、同社のInstinct MI250アクセラレータとNvidiaのA100コンピュートGPUとの比較による詳細な性能数値を発表しました。AMD社のカードは、予想通り、すべてのケースでNvidia社のボードを2〜3倍上回っていました。 しかし、ハードウェア企業が自社の優位性を示すことは珍しいことではありませんが、競合製品に対する詳細な性能数値が公式サイトで公開されることはほとんどありません。それは、自社製品に対する非常に高い信頼性を意味します。
最大で3倍のパフォーマンス
AMDのInstinct MI200は、主にHPCおよびAIのワークロードを対象としているため(そして、明らかにAMDはCDNA 2をAI用というよりもHPCおよびスーパーコンピュータ用に調整している)、AMDは、代数学、物理学、宇宙論、分子力学、および粒子の相互作用を扱うさまざまなHPCアプリケーションおよびベンチマークで、競合するアクセラレータをテストしました。
物理学や分子動力学のHPCアプリケーションには、LAMMPSやOpenMMなど、広く利用され、業界で認められたテストがあるものが数多くあります。これらは実世界のワークロードと考えられ、ここではAMDのMI250XがNvidiaのA100を1.4~2.4倍上回ることができます。
また、実世界の代数学、宇宙論、粒子の相互作用のワークロードを模倣できるHPCベンチマークも数多く存在します。これらのケースでは、AMDの最上位機種であるコンピュートアクセラレーターは、Nvidiaのフラッグシップアクセラレーターに比べて1.9倍から3.05倍の速度を発揮します。
AMDのMI250Xは、NvidiaのA100に比べて高クロックで動作するALUの数が格段に多いことを考えれば、この新カードがライバルを劇的に凌駕したことは驚くべきことではありません。一方で、AMDがAIベンチマークを実施しなかったことは注目に値します。
新しいアーキテクチャ、より多くのALU
AMDのInstinct MI200アクセラレータは、ハイパフォーマンス・コンピューティング(HPC)向けに最適化された最新のCDNA 2アーキテクチャーを搭載しており、約1.5 FP64 TFLOPSの持続的なパフォーマンスを約束する次期スーパーコンピュータ「Frontier」に搭載されます。 MI200シリーズのOAMボードは、AMDのAldebaranコンピュートGPUを採用しており、2つのグラフィックス・コンピュート・ダイ(GCD)で構成されます。このGCDはTSMCのN6プロセスで製造されており、AMDはより多くの層に極端紫外線リソグラフィを使用することで、トランジスタをわずかに多く搭載し、製造プロセスを簡素化することができました。
AMDのフラッグシップモデルであるInstinct MI250Xアクセラレータは、14,080個のストリームプロセッサ(220個のコンピュートユニット)を搭載し、128GBのHBM2Eメモリを装備します。MI250XコンピュートGPUは、95.7FP32/FP64 TFLOPS性能(行列演算でも同性能)に加え、383BF16/INT8/INT4 TFLOPS/TOPS性能を備えます。
一方、Nvidia社のA100 GPUは、542億個のトランジスタで構成され、6,912個のアクティブなCUDAコアを持ち、80GBのHBM2Eメモリと組み合わせます。性能面では、19.5 FP32 TFLOPS、9.7 FP64 TFLOPS、19.5 FP64 Tensor TFLOPS、312 FP16/BF16 TFLOPS、最大624 INT8 TOPS(スパース性がある場合は1248 TOPS)を実現します。
紙面上でも、AMDのInstinct MI200シリーズは、従来のHPCやマトリクスのワークロードではより高い性能を発揮しますが、AIのケースではNvidiaが優位に立っています。これらのピーク性能は、AMDのMI200シリーズの場合、ALU数がかなり多いことで説明できます。
AMDは、同社のフラッグシップコンピュートアクセラレーターであるInstinct MI250X 128GB HBM2Eの性能を実証するために、1つまたは4つのAMD Instinct MI250X 128GB HBM2EコンピュートGPUまたは1つまたは4つのNvidia A100 80GB HBM2Eを搭載した1Pまたは2Pの64コアAMD EPYC 7742ベースのシステムを使用しました。同社は、AMDに最適化されたソフトウェアとCUDAに最適化されたソフトウェアを使用しました。
まとめ
今のところ、AMDのInstinct MI250Xは、自社のデータによれば、世界最高性能のHPCアクセラレータです。Aldebaranがなんと14,080個のALUを持ち、95.7FP32/FP64 TFLOPSの性能を持つと評価されることを考えると、確かに最速のコンピュートGPUであることがわかります。
一方、AMDはNvidiaのA100の約1.5年後、IntelのPonte Vecchioの数カ月前にInstinct MI250Xを発売しました。2021年に発売されたコンピュートアクセラレータが、1年以上前に発売されたライバルを上回るのは当然のことだが、気になるのは、このGPUがインテルのスーパーコンピュータ向けコンピュートGPU「Ponte Vecchio」にどう対抗するのかということです。