最近,作為計算機(jī)系統(tǒng)訓(xùn)練機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)能力的公開標(biāo)準(zhǔn)測試,MLPerf 已全面步入生成型人工智能(AI)時代。
nvidia-culitho,英偉達(dá),芯片© 由 站長之家 提供
今年早些時候,MLPerf 增加了一個針對訓(xùn)練大型語言模型(LLM)的測試,特別是 GPT-3。本月,它又添加了一個基于文本生成圖像的測試——Stable Diffusion。搭載英偉達(dá)和英特爾處理器的計算機(jī)接受了這一新基準(zhǔn)的挑戰(zhàn)。此外,在訓(xùn)練 GPT-3 的領(lǐng)域,這兩個競爭對手還迎來了谷歌的加入。
所有三家公司都投入了龐大的系統(tǒng)來完成這一任務(wù)——其中,英偉達(dá)的 10,000 GPU 超級計算機(jī)是迄今為止測試過的最大系統(tǒng)——這種規(guī)模對于生成型 AI 來說是必要的。即便是英偉達(dá)最大的系統(tǒng),也需要工作八天才能完成其 LLM 任務(wù)。
總體而言,19 家公司和機(jī)構(gòu)提交了 200 多個結(jié)果,顯示出過去五個月以來 2.8 倍的性能提升,以及自 MLPerf 成立五年來 49 倍的增長。
英偉達(dá)繼續(xù)以其 H100 GPU 構(gòu)建的系統(tǒng)主導(dǎo) MLPerf 基準(zhǔn)測試。然而,最引人注目的是來自公司新的 10,752-GPU AI 超級計算機(jī) Eos 的結(jié)果。Eos 在不到 4 分鐘的時間內(nèi)完成了 GPT-3 訓(xùn)練基準(zhǔn)的任務(wù)。微軟的云計算部門 Azure 測試了同等規(guī)模的系統(tǒng),僅落后 Eos 幾秒鐘。(Azure 支持 GitHub 的編碼助手 CoPilot 和 OpenAI 的 ChatGPT。)
Eos 的 GPU 能夠?qū)崿F(xiàn)總計 42.6 億億次浮點(diǎn)運(yùn)算(exaflops),并且通過 Nvidia 的 Quantum-2 Infiniband 互聯(lián)技術(shù),實現(xiàn)了每秒 1.1 百萬億字節(jié)的傳輸速度。英偉達(dá) AI 基準(zhǔn)測試和云計算總監(jiān) Dave Salvatore 表示:「這些速度和數(shù)據(jù)的規(guī)模令人震驚,這是一臺極其強(qiáng)大的機(jī)器?!?/p>
Eos 將綁定到單一機(jī)器中的 H100 GPU 數(shù)量增加了三倍。這三倍的增長獲得了 2.8 倍的性能提升,或 93% 的擴(kuò)展效率。高效的擴(kuò)展是持續(xù)改進(jìn)生成型 AI 的關(guān)鍵,這些 AI 每年都在以 10 倍的速度增長。
Eos 應(yīng)對的 GPT-3 基準(zhǔn)測試并非 GPT-3 的完整訓(xùn)練,因為 MLPerf 希望多家公司都能夠達(dá)到這一水平。相反,它涉及將系統(tǒng)訓(xùn)練到一個特定的檢查點(diǎn),證明給予足夠時間,訓(xùn)練將達(dá)到所需的準(zhǔn)確性。而這些訓(xùn)練確實需要時間。從 Eos 的 4 分鐘結(jié)果推斷,完成訓(xùn)練需要 8 天,而這或許是迄今為止建造的最強(qiáng)大的 AI 超級計算機(jī)。相比之下,一個更為合理大小的計算機(jī)——搭載 512 個 H100 的系統(tǒng)——將需要 4 個月的時間。
與此同時,英特爾也在逐步縮小差距。英特爾提交了使用 Gaudi 2 加速器芯片的系統(tǒng)結(jié)果,以及僅依賴其第四代至強(qiáng) CPU 的系統(tǒng)結(jié)果。與上一輪訓(xùn)練基準(zhǔn)相比,最大的變化是公司啟用了 Gaudi 2 的 8 位浮點(diǎn)(FP8)功能。在過去 10 年中,使用低精度數(shù)字(如 FP8)是 GPU 性能大幅提升的主要原因。在 GPT-3 和其他 Transformer 神經(jīng)網(wǎng)絡(luò)的部分環(huán)節(jié)中使用 FP8,已經(jīng)在英偉達(dá)的 H100 結(jié)果中顯示出其價值?,F(xiàn)在,Gaudi 2 也看到了性能提升。
英特爾 Habana Labs 的首席運(yùn)營官 Eitan Medina 表示:「我們預(yù)計啟用 FP8 將帶來 90% 的性能提升。我們交付的成果超出了預(yù)期——384 加速器集群的訓(xùn)練時間縮短了 103%?!?/p>
這一新結(jié)果使得 Gaudi 2 系統(tǒng)的速度略低于英偉達(dá)系統(tǒng)的三分之一,并且是谷歌 TPUv5e 的三倍。在新的圖像生成基準(zhǔn)測試中,Gaudi 2 的速度也大約是 H100 的一半。這一輪,F(xiàn)P8 僅啟用于 GPT-3 基準(zhǔn)測試,但 Medina 表示他的團(tuán)隊目前正在為其他測試開啟 FP8。
Medina 繼續(xù)強(qiáng)調(diào),與 H100 相比,Gaudi 2 在價格方面有顯著優(yōu)勢,因此在價格和性能的綜合指標(biāo)上具有優(yōu)勢。Medina 預(yù)計,隨著英特爾下一代加速器芯片 Gaudi 3 的推出,這一優(yōu)勢將會增長。Gaudi 3 將于 2024 年投入大規(guī)模生產(chǎn),采用與英偉達(dá) H100 相同的半導(dǎo)體制造工藝。
此外,英特爾還提交了僅基于 CPU 的系統(tǒng)結(jié)果。再次展示了多個基準(zhǔn)測試中訓(xùn)練時間從幾分鐘到幾小時不等的情況。除了 MLPerf 基準(zhǔn)測試之外,英特爾還分享了一些數(shù)據(jù),顯示一個包含 AMX 矩陣引擎的 4 節(jié)點(diǎn)至強(qiáng)系統(tǒng)可以在不到五分鐘內(nèi)微調(diào)圖像生成器 Stable Diffusion。微調(diào)是指對已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行專門化,以適應(yīng)特定任務(wù)。例如,英偉達(dá)的芯片設(shè)計 AI 是對現(xiàn)有大型語言模型 NeMo 的微調(diào)。
訪談
更多做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機(jī)遇 破解新挑戰(zhàn)
今年3月份,全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報告》(以下簡稱“報告”),該報告…
數(shù)字化浪潮下,安防廠商如何滿足行業(yè)客戶的定制化需求?
回顧近兩年,受疫情因素影響,包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來自市場 “不確定性”因素的沖擊,市場…
博思高鄧紹昌:乘產(chǎn)品創(chuàng)新及客戶服務(wù)之舟,在市場變革中逆風(fēng)飛揚(yáng)
11月24日,由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國物聯(lián)網(wǎng)產(chǎn)業(yè)大會暨品牌盛會,在深…