開源AI到底是什么？業(yè)界：超出開源軟件范疇，需要重新界定

2024-03-28 17:53 | 來源：極客網(wǎng)

照字面意思，開源AI意味著未來任何人都可以參與科技開發(fā)，它能加速創(chuàng)新、增強透明度，讓用戶對系統(tǒng)擁有更多控制權(quán)。但到目前為止沒有人給“開源AI”進行明確界定，科技巨頭完全可以根據(jù)自己的需要扭曲概念，甚至有可能利用開源AI穩(wěn)固自身地位。

最近AI圈突然流行起開源概念。Meta承諾將會打造開源AI，馬斯克起訴OpenAI，說它缺少開源模型。與此同時，一批科技領(lǐng)袖和科技企業(yè)紛紛為開源概念吶喊。不過科技界碰到一個難以解決的根本問題：它們對“開源AI”的概念無法達成共識。

在這里我們不得不提到OpenSourceInitiative(OSI)，它是一個非盈利組織，成立于1998年，正是它推動了開源軟件的發(fā)展。OSI已經(jīng)招集研發(fā)人員、律師、議員、大科技公司代表，總計約70人，試圖明確界定“開源AI”概念。

OSI高管StefanoMaffulli說，他們對開源AI原則已經(jīng)達成廣泛共識，但細節(jié)方面分歧很多。要考慮復(fù)雜的競爭利益，要找到一套方案讓所有人滿意，要讓大企業(yè)積極參與，真的不容易。

開源AI到底是什么？業(yè)界：超出開源軟件范疇，需要重新界定

大廠的態(tài)度

去年7月，Meta開源Llama2模型。MetaAI與開源事務(wù)法律副總顧問JonathanTorres說：“我們支持OSI明確定義開源AI，為了全球開源社區(qū)的利益，我們會積極參與定義工作。”

相比Meta，OpenAI顯得沒有那么積極。在過去幾年前，OpenAI很少談及自己的研發(fā)進度，理由是安全無法保證。OpenAI新聞發(fā)言人稱：“只有當(dāng)我們謹慎評估好利益與風(fēng)險，包括誤用、加速等問題，才會考慮將強大的AI模型開放。”

StabilityAI和AlephAlpha已經(jīng)提供一些開源模型，HuggingFace托管了一批免費使用AI模型。

谷歌Gemini和PaLM2模型也沒有開源，但Gemma模型已經(jīng)可以免費使用，它的對手是MetaLlama2，但谷歌所說的不是“開源”，而是“開放”。

到底上述模型能不能稱為“開源”，大家意見并不統(tǒng)一。不管是Llama2還是Gemma都需要獲得授權(quán)，使用時會受到限制，苛刻的要求無疑是與開源相違背的。既然開源就不能施加任何限制，科技企業(yè)顯然沒有做到。

OSI高管StefanoMaffulli稱，開源的目的本來是要確保開發(fā)者可以隨意使用、研究、修改、分享軟件，不施加任何限制，但AI的運行方式有些不同，所以原本適用于軟件的開源理念無法流暢轉(zhuǎn)移到AI領(lǐng)域。

StefanoMaffulli解釋稱，AI模型涉及的組件太多了，如果是軟件，只需要修改底層代碼就行了，AI更復(fù)雜，根據(jù)目的的不同，修改AI模型會牽涉到訓(xùn)練模型、訓(xùn)練數(shù)據(jù)、處理數(shù)據(jù)的代碼、管理訓(xùn)練流程的代碼，還有模型的底層架構(gòu)等。

基本自由是什么？基本權(quán)利是什么？我們都需要明確界定。為了執(zhí)行基本權(quán)利如何操作也不夠明晰。只有定義明確，定義被大家尊重、接受才能降低合規(guī)成本，減少摩擦，分享知識。

當(dāng)前的癥結(jié)在于數(shù)據(jù)。所有大型科技企業(yè)只是簡單發(fā)布了預(yù)訓(xùn)練模型，沒有提供訓(xùn)練數(shù)據(jù)。如果想給開源AI下一個更明確的定義，沒有數(shù)據(jù)就很難修改、研究模型，所以它們并不是開源模型。

有些人持不同意見，他們認為只要簡單描述數(shù)據(jù)，研究人員就能深入調(diào)查模型，沒有必要通過重新訓(xùn)練來修改模型。預(yù)訓(xùn)練模型可以通過所謂的微調(diào)進行調(diào)整，也就是用一批規(guī)模較小的特殊數(shù)據(jù)集來重新訓(xùn)練。

比如Meta提供的Llama2，Meta雖然給出的是預(yù)訓(xùn)練模型，但已經(jīng)有一批開發(fā)者下載、修改它，然后分享自己的修改結(jié)果。開發(fā)者會用它完成各種項目，它已經(jīng)擁有一整套生態(tài)系統(tǒng)，我們能不能叫它半開放？或者叫半開源？

非盈利組織OpenFuture的研發(fā)人員ZuzannaWarso認為，從技術(shù)角度看，如果沒有原始訓(xùn)練數(shù)據(jù)，研發(fā)人員無法修改模型，但沒有訓(xùn)練數(shù)據(jù)就真的無法自由研究模型嗎？這個爭論點也值得商榷。

ZuzannaWarso稱：“在整個流程中，訓(xùn)練數(shù)據(jù)是關(guān)鍵組成部分。如果我們真的關(guān)心開放，也應(yīng)該關(guān)心數(shù)據(jù)的開放度。”

開源的意義

AINowInstitute聯(lián)合執(zhí)行董事SarahMyersWest去年曾發(fā)表一篇論文，她在論文中指出，許多開源AI項目缺少開放性，但她同時也指出，訓(xùn)練尖端AI需要大量數(shù)據(jù)和計算力，苛刻的要求限制了小玩家的參與，不管模型的開源程度如何都受到限制。

通過開源，人們希望達成怎樣的目標？對于這個問題大家也莫衷一是。SarahMyersWest稱：“是為了安全？為了學(xué)術(shù)研究？還是為了增強競爭？我們必須對目標有更清晰的認識，系統(tǒng)開放到什么程度會對目標追求產(chǎn)生怎樣的影響，這點也需要考慮。”

OSI在定義草案中認為，開源能帶來好處，其中自主、透明就是關(guān)鍵收益，但文件中也提到了“超出范圍的問題”，比如倫理、信任、責(zé)任。

Maffulli解釋稱，從歷史上看開源社區(qū)的關(guān)注重點是如何減少軟件分享摩擦，不能陷入無限爭論，比如應(yīng)該如何使用軟件。

有人不認同Maffulli的說法，技術(shù)是中性的，倫理問題不可控，這些有爭議的問題本來就很重要，之所以拒絕討論是避免松散的開源社區(qū)分崩離析。

除了OSI，還有一些組織也想為開源AI指明方向，比如2022年成立的ResponsibleAILicenses（RAIL），它想通過開源授權(quán)的方式限制模型特殊使用方式。拿到授權(quán)后，開發(fā)者不能以不合適、不道德的方式使用AI模型。在HuggingFace的托管平臺上，已經(jīng)有28%的模型使用了RAIL授權(quán)。

谷歌Gemma的授權(quán)也遵循相似的原則，拿到授權(quán)的開發(fā)者不能將模型應(yīng)用于有害場景。艾倫人工智能研究所也制定了自己的授權(quán)規(guī)則。

開源軟件管理公司Tidelift的聯(lián)合創(chuàng)始人LuisVilla認為，考慮到AI與常規(guī)軟件有所不同，探索不同程度的開放是難以避免的，這樣做對整個行業(yè)也可能是有益的。但是各種開放授權(quán)互不兼容可能會影響協(xié)作，只有協(xié)作能讓開源走向成功，除此還有其它一些負作用，比如AI創(chuàng)新會受影響，透明度會降低，小玩家參與難度提升。

社區(qū)應(yīng)該圍繞單一標準進行授權(quán)合并，否則就會各行其是。對于OSI的方針政策，LuisVilla也不是很認可。當(dāng)初OSI提出開源軟件定義時時間充裕，外部審查也很少，如今的AI環(huán)境大不相同，有大企業(yè)和監(jiān)管者干涉。

如果開源社區(qū)無法給出明確的定義，其它人就會根據(jù)自己的需求各提出一套定義。LuisVilla稱：“它們會填補真空，扎克伯格可能會告訴我們所謂的開源AI是什么，他講的話影響肯定很大。”

THE END

免責(zé)聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實后將立即刪除！任何版權(quán)方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟賠償！敬請諒解！

相關(guān)閱讀

展會預(yù)告

新品

多模態(tài)大模型產(chǎn)品亮相，?？低暟l(fā)布文搜存儲系列產(chǎn)品
近日，?？低暬谟^瀾大模型技術(shù)體系，將大參數(shù)量、大樣本量的圖文多模態(tài)大模型與嵌入式智能硬件深度融合…
飛凌微推出AIoT應(yīng)用系列高性能端側(cè)視覺AI SoC芯片A1
誤報率降低90%以上！?？低暟l(fā)布視覺大模型周界攝像機
更準！?？低暟l(fā)布大模型交通卡口抓拍系列產(chǎn)品
飛凌微推出AIoT應(yīng)用系列高性能端側(cè)視覺AI SoC芯片A1
多模態(tài)大模型產(chǎn)品亮相，?？低暟l(fā)布文搜存儲系列產(chǎn)品

訪談

做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機遇破解新挑戰(zhàn)

今年3月份，全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報告》（以下簡稱“報告”），該報告…
數(shù)字化浪潮下，安防廠商如何滿足行業(yè)客戶的定制化需求?

回顧近兩年，受疫情因素影響，包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來自市場 “不確定性”因素的沖擊，市場…
博思高鄧紹昌：乘產(chǎn)品創(chuàng)新及客戶服務(wù)之舟，在市場變革中逆風(fēng)飛揚

11月24日，由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國物聯(lián)網(wǎng)產(chǎn)業(yè)大會暨品牌盛會，在深…

企業(yè)

來自杰創(chuàng)智能的“黑科技”：電磁網(wǎng)捕器護航夏季達沃斯論壇
(電磁網(wǎng)捕器)提供了一種全新的、更高效的物理隔離和壓制手段。尤其在預(yù)案中針對特定突發(fā)情況的模擬處置演練…
應(yīng)用安全再升級！ Imperva Application Security平臺集成新功能
來自杰創(chuàng)智能的“黑科技”：電磁網(wǎng)捕器護航夏季達沃斯論壇
熵基科技：用非侵入式腦機接口，重塑教育、醫(yī)療與養(yǎng)老的未來
華為開發(fā)者大會2025官宣“鴻蒙智選”小豚當(dāng)家成為首批合作伙伴
深耕垂直物聯(lián)場景，螢石藍海大模型2.0 升級引領(lǐng)行業(yè)再躍遷

開源AI到底是什么？業(yè)界：超出開源軟件范疇，需要重新界定

開源AI到底是什么？業(yè)界：超出開源軟件范疇，需要重新界定