AMDのコンピュートアクセラレーター「Instinct MI250X」は、近年同社が発表した製品の中で最も印象的な製品の一つであることは間違いありません。このカードは、業界初のエクサスケール・スーパーコンピュータ「Frontier」をはじめ、今後導入される小規模なハイパフォーマンス・コンピューティング(HPC)にも使用されます。残念ながら、このOAMボード(およびその他のコンピュートアクセラレーター)を実際に見ることができる人はほとんどいませんが、ServeTheHomeのパトリック・ケネディ氏が今週、展示されるシステムの写真でこのギャップを埋めてくれました。大まかな計算によると、2つのGPUダイのそれぞれの大きさは790mm^2で、製造されたGPUの中では最大級の大きさです。この大きなダイは550Wの電力を消費すると言われます。
これまでに発表されたアメリカのエクサスケール・スパコン3機種は、すべてHPEのスパコン・アーキテクチャ「Cray Shasta」を採用しています。そのうち2台(FrontierとEl Capitan)は、AMDのEPYCプロセッサーとInstinctアクセラレータを搭載し、3台目はインテルのXeon Scalable CPUとPonte VecchioコンピュートGPU(Aurora)をベースにしています。AMDは、今後数週間から数カ月のうちに導入が予定されている世界初の(少なくとも公式発表されている限りでは)エクサスケールシステムを駆動することになっているため、SuperComputing 21では、EPYCプロセッサとInstinct MI200シリーズのアクセラレータを搭載したHPEのCray EX235aノードのデモを行いました。
コードネームAldebaranと呼ばれるAMDのInstinct MI250XコンピュートGPUは、それぞれ291億個のトランジスタを搭載した2つのGCD(Graphics Compute Die)で構成されており、4096ビットインターフェースで接続された64GBのHBM2eメモリを搭載します(合計で128GBのHBM2eを8192ビットインターフェースで接続)。14,080個のストリームプロセッサと96 FP64 TFLOPSの性能を持つInstinct MI250Xは、これまでに発売されたHPCアクセラレータの中で最高の性能を誇ります。この製品は、オープン・アクセラレーター・モジュール(OAM)フォーム・ファクターで提供され、サイズは102mm x 165mmと、かなり大きいです。
それぞれのGCDには、パワーコントローラー、電圧調整モジュール、ファームウェアなどのサポートチップがセットになります。カードの左下にある巨大な白い箱がどのような機能を持っているのかは全くわかりませんが、いつかこのカードで遊ぶ機会があれば、全力で調べてみたいと思います。AMD Instinct MI250Xの写真はServeTheHomeをご覧ください。
カードの寸法と、カードに使用されるいくつかのチップ(例えば、GPUパッケージの左側にあるSOIC-8チップ)の寸法を知ることで、Aldebaran CGDの寸法を大まかに推測することができます。もちろん、このようなナプキン計算は、特にこのような画像ではあまり正確ではありませんが、約745 mm^2~790 mm^2のダイサイズのチップを扱っているように見えます。
NvidiaのA100のダイサイズは826mm^2です。Aldebaranに搭載されるFP64ストリームプロセッサの数(7040個のSP)と、これらのSPに大量のデータを供給する必要があることを考えると、SRAMを非常に多用する設計になっていることがわかり、それがダイサイズが大きくなった理由です(SRAMは最近ほとんど拡張されていません)。
複雑なプロセッサは多くの電力を消費する傾向がありますが、OAMフォームファクターは最大700Wの電力を供給できるため、このようなアクセラレータにはまさにうってつけです。噂によると、AMDのInstinct MI250Xは、26相の電圧調整モジュールを介して最大550Wの電力を消費するという。HPEでは、このような製品を冷却するために、水冷システムを採用する予定です。他のタイプのシステムがどのような冷却方法を採用するかは、まだわかりません。
興味深いのは、AMDが第2四半期からInstinct MI200シリーズのコンピュートGPUを収益向けに出荷しているにもかかわらず、カードにはES(エンジニアリング・サンプル)マークが付いていることです。そのため、おそらく写真のカードは最終的なものではなく、市販のボードは若干異なるものだと思われます。
もう1つ重要なのは、カードが、AMDの現在のグラフィックス部門であるATIテクノロジーズがかつて本社を置いていたカナダで製造されたということです。どうやら、AMDは今でもカナダで大きな存在感を示しており、重要な製品の一部をカナダで作っている(少なくとも試作している)ようです。なぜなら、Instinct MI250Xカードは、国家安全保障に関わるものを含む、最も複雑な計算に使用されるエクサスケール・スーパーコンピュータに搭載されるからです。