一区二区三区A片|Av不卡高清网址|精品久久不卡一本|一区二区三区绿色|五月黄色婷婷久久|综合 另类 一区|亚洲成人VA视频|久久国产特黄大片|成人无码激情亚洲|黄色字幕网址大全

微軟、OpenAI 和 Cohere 等公司已轉(zhuǎn)向使用合成數(shù)據(jù)訓(xùn)練人工智能模型

人工智能公司 Cohere 的首席執(zhí)行官 Aiden Gomez 表示,合成數(shù)據(jù)已經(jīng)被用來訓(xùn)練人工智能模型。由于 Reddit 和 Twitter 等公司對于其他公司抓取其數(shù)據(jù)收費高昂,微軟、OpenAI 和 Cohere 等 AI 公司正在轉(zhuǎn)向合成數(shù)據(jù)。

人工智能公司 Cohere 的首席執(zhí)行官 Aiden Gomez 表示,合成數(shù)據(jù)已經(jīng)被用來訓(xùn)練人工智能模型。由于 Reddit 和 Twitter 等公司對于其他公司抓取其數(shù)據(jù)收費高昂,微軟、OpenAI 和 Cohere 等 AI 公司正在轉(zhuǎn)向合成數(shù)據(jù)。

互聯(lián)網(wǎng),大數(shù)據(jù)互聯(lián)網(wǎng),大數(shù)據(jù)© 由 站長之家 提供

Gomez 透露,合成數(shù)據(jù)的使用已經(jīng)非常廣泛,但并未廣泛宣傳。舉例來說,如果他們想要訓(xùn)練一個高級數(shù)學(xué)模型,他們可以設(shè)置兩個人工智能模型扮演老師和學(xué)生的角色,在其中討論三角學(xué)等主題,然后觀察的人會在必要時糾正對話。

雖然合成數(shù)據(jù)已經(jīng)被用于訓(xùn)練模型,并成為幾篇研究論文的重點,但模型主要的訓(xùn)練方式是從互聯(lián)網(wǎng)上獲取數(shù)據(jù),包括數(shù)字圖書、新聞文章、博客、社交媒體、Flickr 等。然后,人類通過強化學(xué)習(xí)反饋(RLHF)給出反饋并填補信息中的空白。

這種方法存在的一些問題包括可能導(dǎo)致侵犯版權(quán)和違反隱私,從而使公司陷入麻煩。Meta 已經(jīng)停止披露用于訓(xùn)練巨型生成式 AI 模型 Llama 2 的數(shù)據(jù)來源。

Financial Times 指出,微軟研究的一篇有趣的研究論文名為「教科書就是你所需要的」,它解釋了通過用教科書質(zhì)量的數(shù)據(jù)訓(xùn)練一個編碼模型,該模型在編碼任務(wù)上表現(xiàn)得相當(dāng)好。類似的方法也可以用于語言,其中一個模型被訓(xùn)練用簡單的單詞和句子,然后可以產(chǎn)生流暢和語法正確的故事。

當(dāng)然,雖然使用合成數(shù)據(jù)來訓(xùn)練模型可能會取得突破,但公司也必須小心不要使用質(zhì)量較差的合成數(shù)據(jù),否則可能會導(dǎo)致隨著時間的推移性能下降。

再加上 OpenAI 和 Anthropic 等公司正在開發(fā)的用于減少人工智能幻覺的 chain-of-thought techniques,合成數(shù)據(jù)可能會幫助人工智能幫助我們解決更多挑戰(zhàn)。

THE END
免責(zé)聲明:本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的,皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方,且不允許本站使用您的字體和圖片文字等素材,請聯(lián)系我們,本站核實后將立即刪除!任何版權(quán)方從未通知聯(lián)系本站管理者停止使用,并索要賠償或上訴法院的,均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索,將不予任何的法律和經(jīng)濟(jì)賠償!敬請諒解!