一区二区三区A片|Av不卡高清网址|精品久久不卡一本|一区二区三区绿色|五月黄色婷婷久久|综合 另类 一区|亚洲成人VA视频|久久国产特黄大片|成人无码激情亚洲|黄色字幕网址大全

谷歌、英特爾、英偉達(dá)在生成式人工智能訓(xùn)練領(lǐng)域展開較量

今年早些時候,MLPerf 增加了一個針對訓(xùn)練大型語言模型(LLM)的測試,特別是 GPT-3。本月,它又添加了一個基于文本生成圖像的測試——Stable Diffusion。搭載英偉達(dá)和英特爾處理器的計算機(jī)接受了這一新基準(zhǔn)的挑戰(zhàn)。此外,在訓(xùn)練 GPT-3 的領(lǐng)域,這兩個競爭對手還迎來了谷歌的加入。

最近,作為計算機(jī)系統(tǒng)訓(xùn)練機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)能力的公開標(biāo)準(zhǔn)測試,MLPerf 已全面步入生成型人工智能(AI)時代。

nvidia-culitho,英偉達(dá),芯片

nvidia-culitho,英偉達(dá),芯片© 由 站長之家 提供

今年早些時候,MLPerf 增加了一個針對訓(xùn)練大型語言模型(LLM)的測試,特別是 GPT-3。本月,它又添加了一個基于文本生成圖像的測試——Stable Diffusion。搭載英偉達(dá)和英特爾處理器的計算機(jī)接受了這一新基準(zhǔn)的挑戰(zhàn)。此外,在訓(xùn)練 GPT-3 的領(lǐng)域,這兩個競爭對手還迎來了谷歌的加入。

所有三家公司都投入了龐大的系統(tǒng)來完成這一任務(wù)——其中,英偉達(dá)的 10,000 GPU 超級計算機(jī)是迄今為止測試過的最大系統(tǒng)——這種規(guī)模對于生成型 AI 來說是必要的。即便是英偉達(dá)最大的系統(tǒng),也需要工作八天才能完成其 LLM 任務(wù)。

總體而言,19 家公司和機(jī)構(gòu)提交了 200 多個結(jié)果,顯示出過去五個月以來 2.8 倍的性能提升,以及自 MLPerf 成立五年來 49 倍的增長。

英偉達(dá)繼續(xù)以其 H100 GPU 構(gòu)建的系統(tǒng)主導(dǎo) MLPerf 基準(zhǔn)測試。然而,最引人注目的是來自公司新的 10,752-GPU AI 超級計算機(jī) Eos 的結(jié)果。Eos 在不到 4 分鐘的時間內(nèi)完成了 GPT-3 訓(xùn)練基準(zhǔn)的任務(wù)。微軟的云計算部門 Azure 測試了同等規(guī)模的系統(tǒng),僅落后 Eos 幾秒鐘。(Azure 支持 GitHub 的編碼助手 CoPilot 和 OpenAI 的 ChatGPT。)

Eos 的 GPU 能夠?qū)崿F(xiàn)總計 42.6 億億次浮點(diǎn)運(yùn)算(exaflops),并且通過 Nvidia 的 Quantum-2 Infiniband 互聯(lián)技術(shù),實現(xiàn)了每秒 1.1 百萬億字節(jié)的傳輸速度。英偉達(dá) AI 基準(zhǔn)測試和云計算總監(jiān) Dave Salvatore 表示:「這些速度和數(shù)據(jù)的規(guī)模令人震驚,這是一臺極其強(qiáng)大的機(jī)器?!?/p>

Eos 將綁定到單一機(jī)器中的 H100 GPU 數(shù)量增加了三倍。這三倍的增長獲得了 2.8 倍的性能提升,或 93% 的擴(kuò)展效率。高效的擴(kuò)展是持續(xù)改進(jìn)生成型 AI 的關(guān)鍵,這些 AI 每年都在以 10 倍的速度增長。

Eos 應(yīng)對的 GPT-3 基準(zhǔn)測試并非 GPT-3 的完整訓(xùn)練,因為 MLPerf 希望多家公司都能夠達(dá)到這一水平。相反,它涉及將系統(tǒng)訓(xùn)練到一個特定的檢查點(diǎn),證明給予足夠時間,訓(xùn)練將達(dá)到所需的準(zhǔn)確性。而這些訓(xùn)練確實需要時間。從 Eos 的 4 分鐘結(jié)果推斷,完成訓(xùn)練需要 8 天,而這或許是迄今為止建造的最強(qiáng)大的 AI 超級計算機(jī)。相比之下,一個更為合理大小的計算機(jī)——搭載 512 個 H100 的系統(tǒng)——將需要 4 個月的時間。

與此同時,英特爾也在逐步縮小差距。英特爾提交了使用 Gaudi 2 加速器芯片的系統(tǒng)結(jié)果,以及僅依賴其第四代至強(qiáng) CPU 的系統(tǒng)結(jié)果。與上一輪訓(xùn)練基準(zhǔn)相比,最大的變化是公司啟用了 Gaudi 2 的 8 位浮點(diǎn)(FP8)功能。在過去 10 年中,使用低精度數(shù)字(如 FP8)是 GPU 性能大幅提升的主要原因。在 GPT-3 和其他 Transformer 神經(jīng)網(wǎng)絡(luò)的部分環(huán)節(jié)中使用 FP8,已經(jīng)在英偉達(dá)的 H100 結(jié)果中顯示出其價值?,F(xiàn)在,Gaudi 2 也看到了性能提升。

英特爾 Habana Labs 的首席運(yùn)營官 Eitan Medina 表示:「我們預(yù)計啟用 FP8 將帶來 90% 的性能提升。我們交付的成果超出了預(yù)期——384 加速器集群的訓(xùn)練時間縮短了 103%?!?/p>

這一新結(jié)果使得 Gaudi 2 系統(tǒng)的速度略低于英偉達(dá)系統(tǒng)的三分之一,并且是谷歌 TPUv5e 的三倍。在新的圖像生成基準(zhǔn)測試中,Gaudi 2 的速度也大約是 H100 的一半。這一輪,F(xiàn)P8 僅啟用于 GPT-3 基準(zhǔn)測試,但 Medina 表示他的團(tuán)隊目前正在為其他測試開啟 FP8。

Medina 繼續(xù)強(qiáng)調(diào),與 H100 相比,Gaudi 2 在價格方面有顯著優(yōu)勢,因此在價格和性能的綜合指標(biāo)上具有優(yōu)勢。Medina 預(yù)計,隨著英特爾下一代加速器芯片 Gaudi 3 的推出,這一優(yōu)勢將會增長。Gaudi 3 將于 2024 年投入大規(guī)模生產(chǎn),采用與英偉達(dá) H100 相同的半導(dǎo)體制造工藝

此外,英特爾還提交了僅基于 CPU 的系統(tǒng)結(jié)果。再次展示了多個基準(zhǔn)測試中訓(xùn)練時間從幾分鐘到幾小時不等的情況。除了 MLPerf 基準(zhǔn)測試之外,英特爾還分享了一些數(shù)據(jù),顯示一個包含 AMX 矩陣引擎的 4 節(jié)點(diǎn)至強(qiáng)系統(tǒng)可以在不到五分鐘內(nèi)微調(diào)圖像生成器 Stable Diffusion。微調(diào)是指對已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行專門化,以適應(yīng)特定任務(wù)。例如,英偉達(dá)的芯片設(shè)計 AI 是對現(xiàn)有大型語言模型 NeMo 的微調(diào)。

THE END
免責(zé)聲明:本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的,皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方,且不允許本站使用您的字體和圖片文字等素材,請聯(lián)系我們,本站核實后將立即刪除!任何版權(quán)方從未通知聯(lián)系本站管理者停止使用,并索要賠償或上訴法院的,均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索,將不予任何的法律和經(jīng)濟(jì)賠償!敬請諒解!