Souminth Chintala 擔心 Transformer 可能導(dǎo)致人工智能碰壁。
2017 年 Transformer 首次亮相,便迅速在 AI 領(lǐng)域擴散開來,CV、NLP 等任務(wù)都有其身影,越來越多的研究人員投入其中。
要說 Transformer 有多厲害,比如 OpenAI 重磅推出的 GPT-3,就是基于 Transformer 實現(xiàn)的。至于傳播速度方面,短短 5 年,Transformer 便在 TensorFlow 、PyTorch 等主流深度學習框架支持的 AI 程序中占據(jù)一席之地。
可別小看這 5 年,假如我們把機器學習比作一個世界,毫不夸張地說,它們的 5 年相當于我們的半個世紀。
不過與高調(diào)宣傳 Transformer 的學者不同,這次 PyTorch 創(chuàng)始人、Meta 杰出工程師 Soumith Chintala 卻唱起了反調(diào),并警告說,Transformer 如此流行,可能是一把雙刃劍。
他認為,到今天為止, Transformer 已經(jīng) 5 年了,這期間還沒有可替代的研究出現(xiàn)。他表示,對占主導(dǎo)地位的 AI 方法(此處指 Transformer)的強烈認可,可能會產(chǎn)生意想不到的后果,越來越多的 Transformer 專用硬件可能會使新策略更難以流行。
Soumith Chintala
至于 Soumith Chintala 為何會有上述結(jié)論,他首先從硬件進行舉例。
專用 AI 硬件不斷出現(xiàn),其他技術(shù)將很難出頭
Transformer 自從在論文《 Attention Is All You Need 》中被首次提出,之后便在很多地方都能看到它的身影。
相應(yīng)地,為 AI 定制專門的硬件開始流行起來。在 GPU 方面,英偉達一直占據(jù)重要地位,他們還發(fā)布了一個名為 Hopper 的架構(gòu),其名稱來自于計算機科學先驅(qū) Grace Hopper,該架構(gòu)專門用于 Transformer。
英偉達甚至還基于 Transformer,專門優(yōu)化了 H100 加速卡的設(shè)計,提出了 Transformer Engine,它集合了新的 Tensor Core、FP8 和 FP16 精度計算,以及 Transformer 神經(jīng)網(wǎng)絡(luò)動態(tài)處理能力,可以將此類機器學習模型的訓練時間從幾周縮短到幾天。
Transformer Engine 使用每層統(tǒng)計分析來確定模型每一層的最佳精度(FP16 或 FP8),在保持模型準確率的同時實現(xiàn)最佳性能。
英偉達首席執(zhí)行官黃仁勛在最近的財報電話會議上表示,Hopper 將是其戰(zhàn)略的重要組成部分(不過,可以肯定的是,英偉達是一家規(guī)模龐大的公司,其產(chǎn)品遠不止 Hopper)。黃仁勛還表示:預(yù)計 Hopper 將成為未來增長的下一個跳板。他還表示 Transformer 這個新模型的重要性不能被低估,也不能被夸大。
不過,英偉達一方面推出了專為 Transformer 設(shè)計的產(chǎn)品,同時也提供了一系列適合多種不同型號的產(chǎn)品,而且可能已經(jīng)為新技術(shù)的出現(xiàn)做好了準備。盡管如此,硬件專業(yè)化仍存在鎖定現(xiàn)代用例的風險,而不是啟用新興用例。
Chintala 對此表示,如果像英偉達這樣的供應(yīng)商將硬件定制得更適用于當前范式,那么其他想法將更難出頭。
不止硬件,更多定制和特定于領(lǐng)域的技術(shù)不斷出現(xiàn),如谷歌的張量處理單元、Cerebras Wafer Scale 引擎等都被提出來,這進一步限制了其他技術(shù)的發(fā)展。
Chintala 還提到,最近一段時間,AI 圈一直流行著這樣一種說法「PyTorch 在受歡迎程度上超越谷歌的 TensorFlow 」,對于這一結(jié)論,Chintala 是拒絕的。
Chintala 表示,PyTorch 不是為了搶走 TensorFlow 的「午餐」而誕生的,它們有各自的優(yōu)點,這兩種框架各自擅長不同的任務(wù)。在研究界,PyTorch 有很好的市場份額,但在其他領(lǐng)域,就很難說了。
不過,谷歌也意識到了 PyTorch 的威脅,他們悄悄地開發(fā)一個機器學習框架,JAX(曾是「Just After eXecution」的首字母縮寫,但官方說法中不再代表任何東西),許多人將其視為 TensorFlow 的繼承者。
曾一度有傳言說谷歌大腦和 DeepMind 在很大程度上放棄了 TensorFlow,轉(zhuǎn)而使用 JAX。谷歌很快出來打假,表示「我們繼續(xù)開發(fā) TensorFlow ,并將其作為一流的應(yīng)用 ML 平臺,與 JAX 并肩推動 ML 研究發(fā)展。」
至于 JAX,其擅長將復(fù)雜的機器學習任務(wù)分散到多個硬件上,極大地簡化了現(xiàn)有工具,使其更容易管理日益龐大的機器學習問題。
Chintala 表示:「我們正在向 JAX 學習,我們也在 PyTorch 中添加了這些內(nèi)容。顯然,JAX 在某些方面做得更好。Pytorch 確實擅長很多事情,這就是它成為主流的原因,人們用它可以做很多事情。但作為主流框架并不意味著它可以覆蓋所有內(nèi)容?!?/p>
原文鏈接:
https://www.businessinsider.com/souminth-chintala-pytorch-tensorflow-transformers-innovation-lag-2022-9
訪談
更多做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機遇 破解新挑戰(zhàn)
今年3月份,全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報告》(以下簡稱“報告”),該報告…
數(shù)字化浪潮下,安防廠商如何滿足行業(yè)客戶的定制化需求?
回顧近兩年,受疫情因素影響,包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來自市場 “不確定性”因素的沖擊,市場…
博思高鄧紹昌:乘產(chǎn)品創(chuàng)新及客戶服務(wù)之舟,在市場變革中逆風飛揚
11月24日,由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國物聯(lián)網(wǎng)產(chǎn)業(yè)大會暨品牌盛會,在深…