這篇文章并非出自于ChatGPT之手。不過(guò)在過(guò)去幾個(gè)月中,生成式AI的確是炙手可熱的話題。
科技巨頭已將他們的運(yùn)營(yíng)計(jì)劃建立在AI基礎(chǔ)上。微軟表示,生成式AI可為其增加400億美元的營(yíng)收。生成式AI市場(chǎng)可推動(dòng)全球GDP增長(zhǎng)近7萬(wàn)億美元。約75%的公司預(yù)計(jì)在未來(lái)五年內(nèi)會(huì)采用人工智能技術(shù)。ChatGPT在推出的最初兩個(gè)月就擁有了1億多用戶,成為有史以來(lái)增長(zhǎng)速度最快的消費(fèi)級(jí)應(yīng)用。
但是,如果缺失一個(gè)要素:數(shù)據(jù),最好的人工智能模型也將毫無(wú)用處。
公司需要海量數(shù)據(jù)來(lái)訓(xùn)練人工智能模型,以便于從之前未開(kāi)發(fā)的信息中獲得洞察和價(jià)值。由于將來(lái)的人工智能工具將可以從過(guò)去的數(shù)據(jù)中挖掘到難以想象的見(jiàn)解,因此應(yīng)盡可能多地保存數(shù)據(jù)。
聊天機(jī)器人以及圖像和視頻AI生成器會(huì)創(chuàng)建更多需要公司管理的數(shù)據(jù),并且需要保留它們的推論以便于為未來(lái)的算法提供信息支撐。Gartner預(yù)計(jì),到2025年,生成式AI將占生成數(shù)據(jù)總量的10%,而目前該比例還不足1%。將此項(xiàng)研究與IDC的全球數(shù)據(jù)圈預(yù)測(cè)研究進(jìn)行交叉印證,我們預(yù)計(jì)ChatGPT、DALL-E、Bard和DeepBrain AI等生成式AI技術(shù)將在未來(lái)五年內(nèi)創(chuàng)建ZB級(jí)數(shù)據(jù)。
只有采用簡(jiǎn)單且經(jīng)濟(jì)高效的數(shù)據(jù)存儲(chǔ)策略,企業(yè)才能大規(guī)模訓(xùn)練和部署人工智能工具,最終利用人工智能應(yīng)用。海量數(shù)據(jù)集需要大容量存儲(chǔ)。如果以前數(shù)據(jù)沒(méi)有存下來(lái),那么現(xiàn)在必須采取行動(dòng)。
為什么AI需要數(shù)據(jù)?
IDC數(shù)據(jù)顯示,2022年創(chuàng)建的企業(yè)數(shù)據(jù)中有84%可用于分析,但得到分析或應(yīng)用到人工智能或機(jī)器學(xué)習(xí)算法中的僅有24%。這意味著公司未能利用大部分的可用數(shù)據(jù)。也就錯(cuò)失了商業(yè)價(jià)值。這就像電動(dòng)汽車:如果電池沒(méi)有充電,汽車無(wú)法帶您到目的地。如果數(shù)據(jù)沒(méi)有存儲(chǔ),即使是最智能的AI工具也無(wú)濟(jì)于事。
隨著眾多公司著眼于訓(xùn)練人工智能模型,大容量存儲(chǔ)將為原始數(shù)據(jù)和生成數(shù)據(jù)提供支持。企業(yè)將需要強(qiáng)有力的數(shù)據(jù)存儲(chǔ)策略。他們可借助云來(lái)解決一些人工智能工作負(fù)載和存儲(chǔ),也可以在本地存儲(chǔ)和處理一些數(shù)據(jù)。機(jī)械硬盤(約占公有云存儲(chǔ)的90%)是專為海量數(shù)據(jù)集而生的經(jīng)濟(jì)高效、耐用可靠的解決方案,能夠存儲(chǔ)持續(xù)訓(xùn)練人工智能模型所需的大量數(shù)據(jù)。
保留原始數(shù)據(jù)是非常必要的,哪怕這些數(shù)據(jù)已經(jīng)被處理過(guò)。比如人工智能創(chuàng)建的一些內(nèi)容可能會(huì)產(chǎn)生知識(shí)產(chǎn)權(quán)糾紛,在行業(yè)調(diào)查或訴訟期間,當(dāng)問(wèn)到人工智能洞察的相關(guān)問(wèn)題,便可以用存儲(chǔ)的數(shù)據(jù)證明所有權(quán)以及結(jié)論的可靠性。
數(shù)據(jù)質(zhì)量也會(huì)影響洞察的可靠性。為了確保更好的數(shù)據(jù)質(zhì)量,企業(yè)應(yīng)該使用包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)記、數(shù)據(jù)增強(qiáng)、監(jiān)控?cái)?shù)據(jù)質(zhì)量指標(biāo)、數(shù)據(jù)治理和主題專家評(píng)審等方法。
企業(yè)如何做好準(zhǔn)備
如果保留數(shù)據(jù)的成本太高,企業(yè)會(huì)不得不刪除數(shù)據(jù)。這是可以理解的,企業(yè)需要平衡成本與人工智能洞察需求的關(guān)系。
為了降低數(shù)據(jù)成本,領(lǐng)先的企業(yè)部署了云成本比較和估算工具。對(duì)于本地存儲(chǔ)的企業(yè)來(lái)說(shuō),更應(yīng)該考慮用硬盤構(gòu)建可以優(yōu)化TCO的存儲(chǔ)系統(tǒng)。此外,企業(yè)都需要對(duì)監(jiān)測(cè)的數(shù)據(jù)和工作負(fù)載模式進(jìn)行優(yōu)先級(jí)排序,并盡可能地實(shí)現(xiàn)工作流程的自動(dòng)化。
全面的數(shù)據(jù)分類對(duì)于識(shí)別訓(xùn)練人工智能模型所需的數(shù)據(jù)至關(guān)重要。要確保敏感數(shù)據(jù)的處理是合規(guī)的,比如個(gè)人身份數(shù)據(jù)或財(cái)務(wù)數(shù)據(jù)等需具備非常強(qiáng)的數(shù)據(jù)安全性。許多企業(yè)對(duì)數(shù)據(jù)進(jìn)行加密以確保安全性,但人工智能算法通常無(wú)法從加密數(shù)據(jù)中進(jìn)行學(xué)習(xí)。所以企業(yè)還需要一個(gè)流程來(lái)安全地解密數(shù)據(jù),以便進(jìn)行培訓(xùn),并且可以重新加密存儲(chǔ)。
為了確保人工智能分析成功,企業(yè)應(yīng)該:
1、養(yǎng)成存儲(chǔ)更多數(shù)據(jù)的習(xí)慣,因?yàn)樵谌斯ぶ悄軙r(shí)代,數(shù)據(jù)更有價(jià)值。保留原始數(shù)據(jù)及洞察,不限制可存儲(chǔ)的數(shù)據(jù)量,但要限定哪些數(shù)據(jù)是可以刪除的。
2、制定可以提高數(shù)據(jù)質(zhì)量的工作流程。
3、降低數(shù)據(jù)存儲(chǔ)成本。
4、實(shí)施穩(wěn)健的數(shù)據(jù)分類和合規(guī)性。
5、確保數(shù)據(jù)安全。
不采取以上行動(dòng)的話,最好的生成式AI模型也會(huì)毫無(wú)用處。
在生成式AI出現(xiàn)之前,數(shù)據(jù)就是開(kāi)啟創(chuàng)新的關(guān)鍵,最擅長(zhǎng)管理多云存儲(chǔ)的企業(yè)實(shí)現(xiàn)收入目標(biāo)的可能性是同行的5.3倍。未來(lái),生成式AI會(huì)顯著拉大企業(yè)之間的創(chuàng)新差距。
當(dāng)前,圍繞生成式AI的討論更多地集中在企業(yè)的創(chuàng)新潛力上。但企業(yè)領(lǐng)導(dǎo)很快就會(huì)意識(shí)到,數(shù)據(jù)存儲(chǔ)及管理策略才是人工智能成功與否的關(guān)鍵因素。
訪談
更多做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機(jī)遇 破解新挑戰(zhàn)
今年3月份,全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報(bào)告》(以下簡(jiǎn)稱“報(bào)告”),該報(bào)告…
數(shù)字化浪潮下,安防廠商如何滿足行業(yè)客戶的定制化需求?
回顧近兩年,受疫情因素影響,包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來(lái)自市場(chǎng) “不確定性”因素的沖擊,市場(chǎng)…
博思高鄧紹昌:乘產(chǎn)品創(chuàng)新及客戶服務(wù)之舟,在市場(chǎng)變革中逆風(fēng)飛揚(yáng)
11月24日,由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國(guó)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)暨品牌盛會(huì),在深…