Souminth Chintala 擔(dān)心 Transformer 可能導(dǎo)致人工智能碰壁。
2017 年 Transformer 首次亮相,便迅速在 AI 領(lǐng)域擴(kuò)散開(kāi)來(lái),CV、NLP 等任務(wù)都有其身影,越來(lái)越多的研究人員投入其中。
要說(shuō) Transformer 有多厲害,比如 OpenAI 重磅推出的 GPT-3,就是基于 Transformer 實(shí)現(xiàn)的。至于傳播速度方面,短短 5 年,Transformer 便在 TensorFlow 、PyTorch 等主流深度學(xué)習(xí)框架支持的 AI 程序中占據(jù)一席之地。
可別小看這 5 年,假如我們把機(jī)器學(xué)習(xí)比作一個(gè)世界,毫不夸張地說(shuō),它們的 5 年相當(dāng)于我們的半個(gè)世紀(jì)。
不過(guò)與高調(diào)宣傳 Transformer 的學(xué)者不同,這次 PyTorch 創(chuàng)始人、Meta 杰出工程師 Soumith Chintala 卻唱起了反調(diào),并警告說(shuō),Transformer 如此流行,可能是一把雙刃劍。
他認(rèn)為,到今天為止, Transformer 已經(jīng) 5 年了,這期間還沒(méi)有可替代的研究出現(xiàn)。他表示,對(duì)占主導(dǎo)地位的 AI 方法(此處指 Transformer)的強(qiáng)烈認(rèn)可,可能會(huì)產(chǎn)生意想不到的后果,越來(lái)越多的 Transformer 專用硬件可能會(huì)使新策略更難以流行。
Soumith Chintala
至于 Soumith Chintala 為何會(huì)有上述結(jié)論,他首先從硬件進(jìn)行舉例。
專用 AI 硬件不斷出現(xiàn),其他技術(shù)將很難出頭
Transformer 自從在論文《 Attention Is All You Need 》中被首次提出,之后便在很多地方都能看到它的身影。
相應(yīng)地,為 AI 定制專門的硬件開(kāi)始流行起來(lái)。在 GPU 方面,英偉達(dá)一直占據(jù)重要地位,他們還發(fā)布了一個(gè)名為 Hopper 的架構(gòu),其名稱來(lái)自于計(jì)算機(jī)科學(xué)先驅(qū) Grace Hopper,該架構(gòu)專門用于 Transformer。
英偉達(dá)甚至還基于 Transformer,專門優(yōu)化了 H100 加速卡的設(shè)計(jì),提出了 Transformer Engine,它集合了新的 Tensor Core、FP8 和 FP16 精度計(jì)算,以及 Transformer 神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)處理能力,可以將此類機(jī)器學(xué)習(xí)模型的訓(xùn)練時(shí)間從幾周縮短到幾天。
Transformer Engine 使用每層統(tǒng)計(jì)分析來(lái)確定模型每一層的最佳精度(FP16 或 FP8),在保持模型準(zhǔn)確率的同時(shí)實(shí)現(xiàn)最佳性能。
英偉達(dá)首席執(zhí)行官黃仁勛在最近的財(cái)報(bào)電話會(huì)議上表示,Hopper 將是其戰(zhàn)略的重要組成部分(不過(guò),可以肯定的是,英偉達(dá)是一家規(guī)模龐大的公司,其產(chǎn)品遠(yuǎn)不止 Hopper)。黃仁勛還表示:預(yù)計(jì) Hopper 將成為未來(lái)增長(zhǎng)的下一個(gè)跳板。他還表示 Transformer 這個(gè)新模型的重要性不能被低估,也不能被夸大。
不過(guò),英偉達(dá)一方面推出了專為 Transformer 設(shè)計(jì)的產(chǎn)品,同時(shí)也提供了一系列適合多種不同型號(hào)的產(chǎn)品,而且可能已經(jīng)為新技術(shù)的出現(xiàn)做好了準(zhǔn)備。盡管如此,硬件專業(yè)化仍存在鎖定現(xiàn)代用例的風(fēng)險(xiǎn),而不是啟用新興用例。
Chintala 對(duì)此表示,如果像英偉達(dá)這樣的供應(yīng)商將硬件定制得更適用于當(dāng)前范式,那么其他想法將更難出頭。
不止硬件,更多定制和特定于領(lǐng)域的技術(shù)不斷出現(xiàn),如谷歌的張量處理單元、Cerebras Wafer Scale 引擎等都被提出來(lái),這進(jìn)一步限制了其他技術(shù)的發(fā)展。
Chintala 還提到,最近一段時(shí)間,AI 圈一直流行著這樣一種說(shuō)法「PyTorch 在受歡迎程度上超越谷歌的 TensorFlow 」,對(duì)于這一結(jié)論,Chintala 是拒絕的。
Chintala 表示,PyTorch 不是為了搶走 TensorFlow 的「午餐」而誕生的,它們有各自的優(yōu)點(diǎn),這兩種框架各自擅長(zhǎng)不同的任務(wù)。在研究界,PyTorch 有很好的市場(chǎng)份額,但在其他領(lǐng)域,就很難說(shuō)了。
不過(guò),谷歌也意識(shí)到了 PyTorch 的威脅,他們悄悄地開(kāi)發(fā)一個(gè)機(jī)器學(xué)習(xí)框架,JAX(曾是「Just After eXecution」的首字母縮寫(xiě),但官方說(shuō)法中不再代表任何東西),許多人將其視為 TensorFlow 的繼承者。
曾一度有傳言說(shuō)谷歌大腦和 DeepMind 在很大程度上放棄了 TensorFlow,轉(zhuǎn)而使用 JAX。谷歌很快出來(lái)打假,表示「我們繼續(xù)開(kāi)發(fā) TensorFlow ,并將其作為一流的應(yīng)用 ML 平臺(tái),與 JAX 并肩推動(dòng) ML 研究發(fā)展?!?/p>
至于 JAX,其擅長(zhǎng)將復(fù)雜的機(jī)器學(xué)習(xí)任務(wù)分散到多個(gè)硬件上,極大地簡(jiǎn)化了現(xiàn)有工具,使其更容易管理日益龐大的機(jī)器學(xué)習(xí)問(wèn)題。
Chintala 表示:「我們正在向 JAX 學(xué)習(xí),我們也在 PyTorch 中添加了這些內(nèi)容。顯然,JAX 在某些方面做得更好。Pytorch 確實(shí)擅長(zhǎng)很多事情,這就是它成為主流的原因,人們用它可以做很多事情。但作為主流框架并不意味著它可以覆蓋所有內(nèi)容?!?/p>
原文鏈接:
https://www.businessinsider.com/souminth-chintala-pytorch-tensorflow-transformers-innovation-lag-2022-9
訪談
更多做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機(jī)遇 破解新挑戰(zhàn)
今年3月份,全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報(bào)告》(以下簡(jiǎn)稱“報(bào)告”),該報(bào)告…
數(shù)字化浪潮下,安防廠商如何滿足行業(yè)客戶的定制化需求?
回顧近兩年,受疫情因素影響,包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來(lái)自市場(chǎng) “不確定性”因素的沖擊,市場(chǎng)…
博思高鄧紹昌:乘產(chǎn)品創(chuàng)新及客戶服務(wù)之舟,在市場(chǎng)變革中逆風(fēng)飛揚(yáng)
11月24日,由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國(guó)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)暨品牌盛會(huì),在深…