1530億顆晶體管！AMD甩出最強AI芯片，單個GPU跑大模型

2023-06-15 10:30 來源:易有料

隨著生成式AI颶風席卷全球，英偉達GPU被各家大廠爭相搶購，焦點很快轉移到AMD身上——AMD能否生產(chǎn)出足夠強大的AI芯片來打破英偉達近乎壟斷的市場地位，抓住新一波AI浪潮？

芯東西6月14日報道，今日凌晨，英偉達的頭號勁敵AMD，終于放出了令人期待已久的AI大招。

2014年，蘇姿豐成為AMD CEO時，這家芯片企業(yè)正瀕臨生存危機，裁員約1/4，股價徘徊在2美元。隨后在蘇姿豐的掌舵之下，AMD完成了漂亮的轉身，9年來股價飆升近30倍，對英偉達和英特爾兩家頂級芯片巨頭形成了制衡。

隨著生成式AI颶風席卷全球，英偉達GPU被各家大廠爭相搶購，焦點很快轉移到AMD身上——AMD能否生產(chǎn)出足夠強大的AI芯片來打破英偉達近乎壟斷的市場地位，抓住新一波AI浪潮？

今日，AMD交出階段性答卷。

在展示下一代AI芯片MI300X加速器時，蘇姿豐滿面笑容地說：“我愛這顆芯片”。

MI300X是一個純GPU版本，采用AMD CDNA 3技術，使用多達192 GB的HBM3高帶寬內(nèi)存來加速大型語言模型和生成式AI計算。

AMD主要客戶將在第三季度開始試用MI300X，第四季度開始全面生產(chǎn)。另一種型號Instinct MI300A現(xiàn)在正在向客戶發(fā)售。

蘇姿豐說，人工智能是AMD“最大、最具戰(zhàn)略意義的長期增長機會”。

現(xiàn)場，AMD與明星AI獨角獸企業(yè)Hugging Face宣布了一項新的合作伙伴關系，為AMD的CPU、GPU和其他AI硬件優(yōu)化他們的模型。

除了AI芯片外，AMD還推出專為云計算和超大規(guī)模用戶設計的全新EPYC服務器處理器，代號為Bergamo，每個插槽最多包含128個內(nèi)核，并針對各種容器化工作負載進行了優(yōu)化。

亞馬遜旗下云計算部門AWS、甲骨文云、Meta、微軟Azure的高管均來到現(xiàn)場，分享在其數(shù)據(jù)中心使用AMD芯片及軟件的感受。

01.

加速生成式AI：

192GB HBM3，單個GPU跑大模型

此前，AMD Instinct GPU已經(jīng)被許多世界上最快的超級計算機采用。

MI300X加速器是AMD Instinct MI300系列的新成員，提供一個僅有GPU配置的芯片版本。

MI300X及其CDNA架構專為大型語言模型和其他先進AI模型而設計，將12個5nm chiplets封裝在一起，共有1530億顆晶體管。

這款全新AI芯片舍棄了APU的24個Zen內(nèi)核和I/O芯片，轉而采用更多的CDNA 3 GPU和更大的192GB HBM3，提供5.2 TB/s的內(nèi)存帶寬和896GB/s的無限帶寬。

MI300X的HBM密度是英偉達H100的2.4倍，帶寬是英偉達H100的1.6倍，這意味著AMD可以運行比英偉達芯片更大的模型。

AMD演示了在單個MI300X GPU上運行擁有400億個參數(shù)的Falcon-40B大型語言模型，讓它寫了一首關于舊金山的詩。

“模型尺寸變得越來越大，你需要多個GPU來運行最新的大型語言模型，”蘇姿豐說，隨著AMD芯片上內(nèi)存增加，開發(fā)者將不需要那么多GPU。

另一款MI300A被蘇姿豐稱作“面向AI和高性能計算的全球首款APU加速器”，將多個CPU、GPU和高帶寬內(nèi)存封在一起，在13個chiplets上擁有1460億顆晶體管。

MI300A采用5nm和6nm制程、CDNA 3 GPU架構，搭配24個Zen 4核心、128GB HBM3，相比MI250提供了8倍以上的性能和5倍以上的效率。

AMD還公布了一種AMD Infinity架構。該架構將8個 MI300X加速器連接在一個考慮了AI推理和訓練的標準系統(tǒng)中，提供共1.5TB HBM3內(nèi)存。

據(jù)臺媒報道，AMD的Instinct MI300系列以及英偉達的H100/H800系列GPU都在采用臺積電先進的后端3D封裝方法CoWoS，導致臺積電CoWoS產(chǎn)能短缺將持續(xù)存在。臺積電目前有能力每月處理大約8000片CoWoS晶圓，其中英偉達和AMD合計占了大約70%到80%。

此外，英偉達近年備受開發(fā)者偏愛的一大關鍵護城河是CUDA軟件。AMD 總裁Victor Peng也展示了AMD在開發(fā)軟件生態(tài)方面所做的努力。

AMD計劃在AI軟件生態(tài)系統(tǒng)開發(fā)中采用“開放（Open）、成熟（Proven）、就緒（Ready）”的理念。

AMD的ROCm是一套完整的庫和工具，用于優(yōu)化AI軟件棧。不同于CUDA，這是一個開放的平臺。

AMD還分享了PyTorch與ROCm的合作。新的PyTorch 2.0的速度幾乎是之前版本的兩倍。AMD是PyTorch基金會的創(chuàng)始成員之一。

AMD正在不斷優(yōu)化ROCm。Victor Peng說：“雖然這是一段旅程，但我們在構建可與模型、庫、框架和工具的開放生態(tài)系統(tǒng)協(xié)同工作的強大軟件棧方面取得了真正的巨大進步。”

02.

云原生處理器Bergamo：

128核，256個線程，最高vCPU密度

再來看下AMD的數(shù)據(jù)中心CPU。

蘇姿豐首先分享了AMD EPYC處理器的進展，特別是在全球范圍內(nèi)可用的云計算實例方面。

她強調(diào)說，AMD第四代EPYC Genoa處理器在云計算工作負載方面的性能是英特爾競品的1.8倍，在企業(yè)工作負載方面的性能提高到1.9倍。

絕大多數(shù)AI都在CPU上運行，AMD稱，與英特爾至強8490H相比，第四代EPYC在性能上遙遙領先，性能優(yōu)勢高出1.9倍。

蘇姿豐說，云原生處理器以吞吐量為導向，需要最高的性能、可擴展性、計算密度和能效。

新發(fā)布的Bergamo，便是云原生處理器市場的入口。

該芯片有820億顆晶體管，提供了最高的vCPU密度。

在大散熱器下，有一個表面看起來非常像以前的EPYC的芯片，跟與Rome或Milan一樣有中央I/O芯片和8個核心復合芯片（CCD）。

Bergamo的每個插槽有多達128個核心、256個線程，分布在8個CCD上，每個CCD的核心數(shù)量是Genoa 16個核心的兩倍，采用比標準Zen 4內(nèi)核提供更高密度的全新Zen 4c核心設計，并支持一致的x86 ISA。

“Zen 4c針對性能和功耗的最佳平衡點進行了優(yōu)化，這為我們提供了更好的密度和能效，”蘇姿豐在演講中談道，“結果設計面積縮小了35%，每瓦性能顯著提高。”

Bergamo現(xiàn)在正在向AMD的云客戶發(fā)貨。AMD還分享了第四代EPYC 9754與英特爾至強8490H的性能、密度和能效和對比：

除了Bergamo的新核心和Chiplet架構之外，該處理器與Genoa有很多共同之處，包括支持12通道DDR5內(nèi)存、最新PCIe 5.0、單插槽或雙插槽配置等等。

不過，多核心不再只是AMD處理器獨有的特色。不久之前，數(shù)據(jù)中心處理器新起之秀Ampere Computing剛推出擁有多達192個單線程Ampere核心的Ampere One系列處理器。英特爾也計劃在2024年初推出內(nèi)核優(yōu)化的至強處理器Sierra Forest，將內(nèi)置144個高效能核心。

AMD還展示了其最新的緩存堆疊X芯片，代號為Genoa-X，現(xiàn)已上市。

該芯片針對高性能計算工作負載，包括計算流體動力學、電子設計自動化、有限元分析、地震層析成像及其他帶寬敏感型工作負載，這些工作負載受益于大量共享緩存。

Genoa-X CPU基于AMD的標準Genoa平臺，采用AMD 3D V-Cache技術，通過在每個CCD上垂直堆疊SRAM模塊來提高可用的L3緩存。

該芯片可提供多達96個內(nèi)核和總計1.1GB的L3高速緩存，每個CCD上堆疊了一個64MB SRAM塊。

據(jù)AMD披露的數(shù)據(jù)，在各種計算流體動力學和有限元分析工作負載方面，與英特爾最高規(guī)格的60核Sapphire Rapids至強相比，Genoa-X緩存提升的性能提高到2.2倍到2.9倍。

下圖是Genoa-X與相同數(shù)量核心的英特爾至強的性能對比：

03.

即將推出全新DPU

最后，AMD簡要介紹了其網(wǎng)絡基礎設施。

去年AMD以19億美元收購Pensando，進入DPU賽道。AMD解釋了如何使用其DPU來減少數(shù)據(jù)中心的網(wǎng)絡開銷。

AMD將其P4 DPU架構稱作“世界上最智能的DPU”，并稱其Pensando SmartNIC是新數(shù)據(jù)中心架構不可或缺的一部分。

AMD還在現(xiàn)場展示了與Aruba Networks共同開發(fā)的智能交換機。AMD計劃將P4 DPU卸載集成到網(wǎng)絡交換機本身，從而提供機架級服務。

AMD最新的DPU旨在從CPU卸載網(wǎng)絡、安全和虛擬化任務，與當前一代P4 DPU相比將提供更高的性能和能效。

其DPU已得到微軟、IBM云、甲骨文云等許多主要云提供商以及VMware虛擬機管理程序等軟件套件的支持。

AMD打算在今年晚些時候推出Giglio DPU之前擴大兼容軟件列表，推出“芯片軟件開發(fā)工具包”，以便用戶更輕松地在其DPU上部署工作負載。

04.

結語：到2027年，數(shù)據(jù)中心AI加速器

市場規(guī)模將超過1500億美元

全球數(shù)據(jù)中心GPU和CPU的頭部企業(yè)英偉達和英特爾均在強調(diào)其加速AI的實力。作為這兩條賽道“萬年老二”的AMD，也在競相滿足對AI計算日益增長的需求，并通過推出適應最新需求的數(shù)據(jù)中心GPU來挑戰(zhàn)英偉達在新興市場的主導地位。

生成式AI和大型語言模型的應用熱潮正在將數(shù)據(jù)中心推向極限。截至目前，英偉達在提供處理這些工作負載所需的技術方面具有優(yōu)勢。根據(jù)市場調(diào)研機構New Street Research的數(shù)據(jù)，英偉達占據(jù)了可用于機器學習的GPU市場的95%。

“我們?nèi)蕴幱贏I生命周期的非常、非常早的階段，”蘇姿豐預測，到2027年，數(shù)據(jù)中心AI加速器總潛在市場規(guī)模將增長5倍，從今年的300億美元左右以超過50%的復合年增長率增長到2027年的1500億美元以上。

AMD并未透露兩款MI300新芯片的價格，但這可能會給英偉達帶來一定價格壓力，之前H100價格據(jù)傳高達30000美元乃至更多。

THE END

免責聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實后將立即刪除！任何版權方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟賠償！敬請諒解！

相關閱讀

展會預告

新品

多模態(tài)大模型產(chǎn)品亮相，海康威視發(fā)布文搜存儲系列產(chǎn)品
近日，?？低暬谟^瀾大模型技術體系，將大參數(shù)量、大樣本量的圖文多模態(tài)大模型與嵌入式智能硬件深度融合…
飛凌微推出AIoT應用系列高性能端側視覺AI SoC芯片A1
誤報率降低90%以上！?？低暟l(fā)布視覺大模型周界攝像機
更準！?？低暟l(fā)布大模型交通卡口抓拍系列產(chǎn)品
飛凌微推出AIoT應用系列高性能端側視覺AI SoC芯片A1
多模態(tài)大模型產(chǎn)品亮相，海康威視發(fā)布文搜存儲系列產(chǎn)品

訪談

做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機遇破解新挑戰(zhàn)

今年3月份，全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報告》（以下簡稱“報告”），該報告…
數(shù)字化浪潮下，安防廠商如何滿足行業(yè)客戶的定制化需求?

回顧近兩年，受疫情因素影響，包括安防在內(nèi)的諸多行業(yè)領域都遭受了來自市場 “不確定性”因素的沖擊，市場…
博思高鄧紹昌：乘產(chǎn)品創(chuàng)新及客戶服務之舟，在市場變革中逆風飛揚

11月24日，由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國物聯(lián)網(wǎng)產(chǎn)業(yè)大會暨品牌盛會，在深…

企業(yè)

來自杰創(chuàng)智能的“黑科技”：電磁網(wǎng)捕器護航夏季達沃斯論壇
(電磁網(wǎng)捕器)提供了一種全新的、更高效的物理隔離和壓制手段。尤其在預案中針對特定突發(fā)情況的模擬處置演練…
應用安全再升級！ Imperva Application Security平臺集成新功能
來自杰創(chuàng)智能的“黑科技”：電磁網(wǎng)捕器護航夏季達沃斯論壇
熵基科技：用非侵入式腦機接口，重塑教育、醫(yī)療與養(yǎng)老的未來
華為開發(fā)者大會2025官宣“鴻蒙智選”小豚當家成為首批合作伙伴
深耕垂直物聯(lián)場景，螢石藍海大模型2.0 升級引領行業(yè)再躍遷

1530億顆晶體管！AMD甩出最強AI芯片，單個GPU跑大模型

1530億顆晶體管！AMD甩出最強AI芯片，單個GPU跑大模型