艾倫人工智能研究所(AI2)發(fā)布了名為Dolma的開放式文本數(shù)據(jù)集,旨在促進AI語言模型的透明度和創(chuàng)新。Dolma作為AI2開放式語言模型(OLMo)計劃的核心,將為研究人員和開發(fā)者提供免費的數(shù)據(jù)資源,以支持更廣泛的AI研究。
在GPT-4和Claude等語言模型的崛起中,人們對這些模型的強大能力感到驚嘆,但模型背后的數(shù)據(jù)集卻籠罩在神秘的面紗之下,引發(fā)了對透明度的擔憂。為了改變這種現(xiàn)狀,AI2決定采取一項突破性舉措,向全球發(fā)布了Dolma數(shù)據(jù)集,以推動AI語言模型領(lǐng)域的透明度和協(xié)作。
Dolma作為AI2開放式語言模型(OLMo)計劃的基石,其名稱縮寫代表“Data to feed OLMo#39;s Appetite”(供養(yǎng)OLMo食欲的數(shù)據(jù))。AI2旨在通過向研究社區(qū)提供免費、開放的數(shù)據(jù)資源,鼓勵更多的創(chuàng)新和研究。該數(shù)據(jù)集的發(fā)布不僅是AI2首次共享關(guān)于OLMo的“數(shù)據(jù)成果”,還是AI2在透明度方面邁出的重要一步。
AI機器人玩游戲© 由 站長之家 提供
根據(jù)AI2的Luca Soldaini在詳細的博文中所述,Dolma數(shù)據(jù)集的來源和處理過程得到了透明記錄。AI2團隊詳細解釋了將文本還原為原始英語內(nèi)容等決策的方法。AI2強調(diào),他們計劃發(fā)布更全面的論文,以深入探討數(shù)據(jù)集的細節(jié)。
與此同時,Dolma不僅僅是一個規(guī)模龐大的開放數(shù)據(jù)集,擁有驚人的30億標記(AI中內(nèi)容量的本地度量),而且使用和許可方面也非常簡便。AI2采用了“中風險成果的ImpACT許可證”,并鼓勵用戶:
- 提供聯(lián)系信息和使用情況
- 披露基于Dolma的衍生創(chuàng)作
- 在相同許可下分發(fā)這些衍生創(chuàng)作
- 同意不將Dolma應用于禁止領(lǐng)域,如監(jiān)視或虛假信息
AI2還為擔心個人數(shù)據(jù)隱私的用戶提供了專門的數(shù)據(jù)刪除請求表單,以確保個人數(shù)據(jù)的保護。
Dolma的發(fā)布標志著AI2在透明度和協(xié)作方面邁出的重要一步,為AI語言模型的開放和共享知識設立了有力的先例。該數(shù)據(jù)集的開放為研究人員和開發(fā)者提供了更多的資源,將推動AI領(lǐng)域走向更加透明和合作的未來。用戶可通過Hugging Face平臺訪問Dolma,這是一個對AI領(lǐng)域的積極而重要的發(fā)展。
訪談
更多做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機遇 破解新挑戰(zhàn)
今年3月份,全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報告》(以下簡稱“報告”),該報告…
數(shù)字化浪潮下,安防廠商如何滿足行業(yè)客戶的定制化需求?
回顧近兩年,受疫情因素影響,包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來自市場 “不確定性”因素的沖擊,市場…
博思高鄧紹昌:乘產(chǎn)品創(chuàng)新及客戶服務之舟,在市場變革中逆風飛揚
11月24日,由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國物聯(lián)網(wǎng)產(chǎn)業(yè)大會暨品牌盛會,在深…