人工智能公司 Cohere 的首席執(zhí)行官 Aiden Gomez 表示,合成數(shù)據(jù)已經(jīng)被用來訓(xùn)練人工智能模型。由于 Reddit 和 Twitter 等公司對于其他公司抓取其數(shù)據(jù)收費高昂,微軟、OpenAI 和 Cohere 等 AI 公司正在轉(zhuǎn)向合成數(shù)據(jù)。
互聯(lián)網(wǎng),大數(shù)據(jù)© 由 站長之家 提供
Gomez 透露,合成數(shù)據(jù)的使用已經(jīng)非常廣泛,但并未廣泛宣傳。舉例來說,如果他們想要訓(xùn)練一個高級數(shù)學(xué)模型,他們可以設(shè)置兩個人工智能模型扮演老師和學(xué)生的角色,在其中討論三角學(xué)等主題,然后觀察的人會在必要時糾正對話。
雖然合成數(shù)據(jù)已經(jīng)被用于訓(xùn)練模型,并成為幾篇研究論文的重點,但模型主要的訓(xùn)練方式是從互聯(lián)網(wǎng)上獲取數(shù)據(jù),包括數(shù)字圖書、新聞文章、博客、社交媒體、Flickr 等。然后,人類通過強化學(xué)習(xí)反饋(RLHF)給出反饋并填補信息中的空白。
這種方法存在的一些問題包括可能導(dǎo)致侵犯版權(quán)和違反隱私,從而使公司陷入麻煩。Meta 已經(jīng)停止披露用于訓(xùn)練巨型生成式 AI 模型 Llama 2 的數(shù)據(jù)來源。
Financial Times 指出,微軟研究的一篇有趣的研究論文名為「教科書就是你所需要的」,它解釋了通過用教科書質(zhì)量的數(shù)據(jù)訓(xùn)練一個編碼模型,該模型在編碼任務(wù)上表現(xiàn)得相當(dāng)好。類似的方法也可以用于語言,其中一個模型被訓(xùn)練用簡單的單詞和句子,然后可以產(chǎn)生流暢和語法正確的故事。
當(dāng)然,雖然使用合成數(shù)據(jù)來訓(xùn)練模型可能會取得突破,但公司也必須小心不要使用質(zhì)量較差的合成數(shù)據(jù),否則可能會導(dǎo)致隨著時間的推移性能下降。
再加上 OpenAI 和 Anthropic 等公司正在開發(fā)的用于減少人工智能幻覺的 chain-of-thought techniques,合成數(shù)據(jù)可能會幫助人工智能幫助我們解決更多挑戰(zhàn)。
訪談
更多做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機遇 破解新挑戰(zhàn)
今年3月份,全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報告》(以下簡稱“報告”),該報告…
數(shù)字化浪潮下,安防廠商如何滿足行業(yè)客戶的定制化需求?
回顧近兩年,受疫情因素影響,包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來自市場 “不確定性”因素的沖擊,市場…
博思高鄧紹昌:乘產(chǎn)品創(chuàng)新及客戶服務(wù)之舟,在市場變革中逆風(fēng)飛揚
11月24日,由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國物聯(lián)網(wǎng)產(chǎn)業(yè)大會暨品牌盛會,在深…