隨著我們深入ML和GenAI領(lǐng)域,對(duì)數(shù)據(jù)質(zhì)量的重視變得至關(guān)重要。KMS Technology高級(jí)技術(shù)創(chuàng)新小組的首席技術(shù)官John Jeske深入研究了數(shù)據(jù)治理方法,如數(shù)據(jù)沿襲跟蹤和聯(lián)合學(xué)習(xí),以確保頂級(jí)模型的性能。
數(shù)據(jù)質(zhì)量是模型可持續(xù)性和利益相關(guān)者信任的關(guān)鍵。在建模過程中,數(shù)據(jù)質(zhì)量使長(zhǎng)期維護(hù)變得更容易,并使你能夠在利益相關(guān)者社區(qū)中建立用戶信心和信心。在包括大規(guī)模語言和生成性算法在內(nèi)的復(fù)雜模型中,‘垃圾輸入,垃圾輸出’的影響會(huì)加劇。“Jeske說。
基因AI偏向與數(shù)據(jù)代表性問題
無論你為用例選擇哪種模型,糟糕的數(shù)據(jù)質(zhì)量都不可避免地會(huì)導(dǎo)致GenAI模型的扭曲。陷阱通常來自培訓(xùn)數(shù)據(jù),這些數(shù)據(jù)錯(cuò)誤地表示了公司的范圍、客戶基礎(chǔ)或應(yīng)用程序范圍。
真正的資產(chǎn)是數(shù)據(jù)本身,而不是曇花一現(xiàn)的模型或建模架構(gòu)。最近幾個(gè)月,隨著大量建??蚣艿某霈F(xiàn),數(shù)據(jù)作為可貨幣化資產(chǎn)的一貫價(jià)值變得格外明顯。
KMS Technology軟件服務(wù)高級(jí)副總裁Jeff Scott補(bǔ)充道:“當(dāng)AI生成的內(nèi)容偏離預(yù)期輸出時(shí),這不是算法的錯(cuò)誤。相反,這反映了培訓(xùn)數(shù)據(jù)的不足或扭曲。
嚴(yán)格的數(shù)據(jù)完整性治理
數(shù)據(jù)治理方面的最佳實(shí)踐包括元數(shù)據(jù)管理、數(shù)據(jù)管理和部署自動(dòng)化質(zhì)量檢查等活動(dòng)。例如,確保數(shù)據(jù)的來源,在獲取用于培訓(xùn)和建模的數(shù)據(jù)時(shí)使用經(jīng)過認(rèn)證的數(shù)據(jù)集,以及考慮使用自動(dòng)化數(shù)據(jù)質(zhì)量工具。雖然增加了一層復(fù)雜性,但這些工具對(duì)于實(shí)現(xiàn)數(shù)據(jù)完整性非常有用。
為了提高數(shù)據(jù)質(zhì)量,我們使用了提供數(shù)據(jù)有效性、完整性檢查和時(shí)間一致性等屬性的工具,這促進(jìn)了可靠、一致的數(shù)據(jù),而這對(duì)于健壯的AI模型來說是不可或缺的。
AI發(fā)展中的責(zé)任追究和持續(xù)改進(jìn)
數(shù)據(jù)是每個(gè)人的問題,在公司內(nèi)分配數(shù)據(jù)治理的責(zé)任是一項(xiàng)基本任務(wù)。
最重要的是確保功能按設(shè)計(jì)工作,并且從潛在客戶的角度來看,正在訓(xùn)練的數(shù)據(jù)是合理的。反饋加強(qiáng)了學(xué)習(xí),然后在下一次訓(xùn)練模型時(shí)考慮到反饋,從而調(diào)用持續(xù)改進(jìn),直到信任點(diǎn)。
在我們的工作流程中,AI和ML模型在公開推出之前要經(jīng)過嚴(yán)格的內(nèi)部測(cè)試。我們的數(shù)據(jù)工程團(tuán)隊(duì)不斷收到反饋,允許對(duì)模型進(jìn)行迭代改進(jìn),以最大限度地減少偏差和其他異常情況。
風(fēng)險(xiǎn)管理與客戶信任
數(shù)據(jù)治理需要相關(guān)業(yè)務(wù)領(lǐng)域的數(shù)據(jù)管理,并需要主題專家持續(xù)參與,這確保了流經(jīng)其團(tuán)隊(duì)和系統(tǒng)的數(shù)據(jù)得到適當(dāng)整理和一致的責(zé)任。
必須了解與接收來自技術(shù)的不準(zhǔn)確結(jié)果相關(guān)的風(fēng)險(xiǎn),公司必須評(píng)估其透明度,從數(shù)據(jù)來源和處理知識(shí)產(chǎn)權(quán)到整體數(shù)據(jù)質(zhì)量和完整性。
透明度對(duì)客戶的信任是不可或缺的,數(shù)據(jù)治理不僅僅是一項(xiàng)技術(shù)工作,由于風(fēng)險(xiǎn)從不準(zhǔn)確的AI預(yù)測(cè)轉(zhuǎn)移到最終用戶,它還會(huì)影響公司的聲譽(yù)。
總之,隨著GenAI的不斷發(fā)展,掌握數(shù)據(jù)治理變得更加關(guān)鍵,這不僅僅是為了維護(hù)數(shù)據(jù)質(zhì)量,也是為了理解這些數(shù)據(jù)與利用它的AI模型之間的復(fù)雜關(guān)系。這種洞察力對(duì)于技術(shù)進(jìn)步、業(yè)務(wù)健康以及維護(hù)利益相關(guān)者和更廣泛公眾的信任至關(guān)重要。
訪談
更多做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機(jī)遇 破解新挑戰(zhàn)
今年3月份,全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報(bào)告》(以下簡(jiǎn)稱“報(bào)告”),該報(bào)告…
數(shù)字化浪潮下,安防廠商如何滿足行業(yè)客戶的定制化需求?
回顧近兩年,受疫情因素影響,包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來自市場(chǎng) “不確定性”因素的沖擊,市場(chǎng)…
博思高鄧紹昌:乘產(chǎn)品創(chuàng)新及客戶服務(wù)之舟,在市場(chǎng)變革中逆風(fēng)飛揚(yáng)
11月24日,由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)暨品牌盛會(huì),在深…