一区二区三区A片|Av不卡高清网址|精品久久不卡一本|一区二区三区绿色|五月黄色婷婷久久|综合 另类 一区|亚洲成人VA视频|久久国产特黄大片|成人无码激情亚洲|黄色字幕网址大全

引領數據領域AI工程化落地,為什么會是云測數據?

2020年,Gartner發(fā)布《2021年重要戰(zhàn)略技術趨勢》,認為AI工程化(AI Engineering)將是“需要深挖的趨勢”,到了2021年年底,在Gartner的《2022年十二大重要戰(zhàn)略技術趨勢》中,AI工程化又被進一步明確為未來三到五年“企業(yè)數字業(yè)務創(chuàng)新的加速器”。

2020年,Gartner發(fā)布《2021年重要戰(zhàn)略技術趨勢》,認為AI工程化(AI Engineering)將是“需要深挖的趨勢”,到了2021年年底,在Gartner的《2022年十二大重要戰(zhàn)略技術趨勢》中,AI工程化又被進一步明確為未來三到五年“企業(yè)數字業(yè)務創(chuàng)新的加速器”。

幾乎就在同一時期,阿里發(fā)布面向AI工程化的一體化大數據和AI產品體系“靈杰”,稱要推動“AI落地范式的升級,共同推動AI產業(yè)邁向新的增長”。

到了不久前落幕的服貿會上,人工智能數據企業(yè)云測數據發(fā)布了面向AI工程化的新一代數據解決方案,其價值設定為“高度支持企業(yè)所需數據的高效流轉、持續(xù)進行數據處理任務,提高規(guī)?;a效率”。

而即將召開的由?LF?AI?&?DATA?基金會主辦、關注AI領域前沿革新的?AICON?2022,將為AI工程化設置專門的分論壇……

毫無疑問,在AI加速實現場景落地的今天,“AI工程化”已經成為行業(yè)普遍的議題,被認為是AI發(fā)展必然的趨勢之一。

什么是AI工程化?

按Gartner比較官方的定義,是“使用數據處理、預訓練模型、機器學習流水線(MLOps)?等開發(fā)AI軟件的技術統(tǒng)稱,幫助企業(yè)更高效的利用AI創(chuàng)造價值”。“智能相對論”認為,AI工程化更簡單的理解,就是已經十分成熟的軟件工程將“軟件”擴展到AI后的一種針對AI開發(fā)特點的適配與進化,通過系統(tǒng)化、規(guī)范化、可度量地使用各種工程方法和工具,確保AI軟件能夠達到預期。

這里,可以通過數據方面的AI工程化創(chuàng)新來幫助直觀理解。云測數據面向AI工程化的新一代數據解決方案,通過成熟數據管理和標注平臺與企業(yè)完成系統(tǒng)集成+支持企業(yè)自定義預標注算法接口+人員管理及項目管理體系+安全交付軟硬件支持的方式,在保證數據隱私安全的標注環(huán)境下,高度支持企業(yè)所需數據的高效流轉、持續(xù)進行數據處理任務,從而提高規(guī)?;a效率:

可以看到,云測數據的AI數據解決方案利用了大量工程方法和工具,在宏觀布局上表現出系統(tǒng)化、規(guī)范化的特點,大量細分模塊與能力也體現出AI開發(fā)工作方方面面的可度量性,最終服務于AI開發(fā)的全局,整體“一盤棋”(傳統(tǒng)軟件工程是“一條線”),這就是AI工程化能夠帶來的直觀感受。

而AI工程化為什么得到從權威機構、互聯網大廠到數據服務創(chuàng)新企業(yè)的普遍重視?這可能要從AI發(fā)展的階段性需求談起。

算法、算力、數據……AI落地現在還需要AI工程化

AI的發(fā)展有標準的算法、算力、數據三要素,在Gartner看來,任何一個行業(yè)、企業(yè),只要有場景,有積累的數據,有算力,都可以落地AI應用。但Gartner同時指出,落地的效率、周期可能會遠超預期,其研究擺明,“只有53%的項目能夠從AI原型有效轉化為生產”。

這意味著,在當下場景落地成為主流的階段,并非只具備了精巧的算法、充沛的算力、足夠的數據就一定能夠做好AI場景應用、實現好技術的價值——正如Gartner所言,“AI?要成為企業(yè)的生產力,就必須以工程化的技術來解決模型開發(fā)、訓練、預測等全鏈路生命周期的問題。”

“智能相對論”認為,傳統(tǒng)的軟件工程針對“產品”,主要經歷需求分析、系統(tǒng)設計、代碼實現、驗證、發(fā)布以及運維的過程,瀑布式的流水線走下來,“產品”做好了發(fā)出去、做做售后就可以了。

而AI的場景落地雖然也給出的是“產品”,但其背后本質上是一系列智能化“能力”的組合。既然是能力,開發(fā)流程就與傳統(tǒng)軟件有較大出入,是問題抽象、數據準備、算法設計、模型訓練、模型評估與調優(yōu)、模型部署的過程,在部署之后,還需要根據場景實踐不斷反饋到數據準備和算法設計上,從而讓AI的“能力”不斷接近和達到預期。

因此,傳統(tǒng)的軟件工程體系做法已經無法支撐AI開發(fā)的需要,必須要有新的方式來推動,AI工程化提供了專門適配AI開發(fā)的一系列方法、工具和實踐的集合,就起到了這個價值,為算力、算法和數據提供了新的利用方式,持續(xù)為場景創(chuàng)造價值。

這也說明,大規(guī)模落地階段,AI工程化更加被深刻需要。目前而言,市面上大體有兩種面向AI工程化的做法。

一種是AI開發(fā)框架型,也即原本就提供AI開發(fā)服務的各種深度學習框架,將服務延展而來,其優(yōu)勢在于AI框架原本就是AI領域的基礎軟件,處于承上啟下的位置,提供面向AI工程化的服務“近水樓臺”。

這方面,以Google、Meta等科技巨頭為代表,國內有華為、百度等,以TensorFlow、PyTorch、MindSpore、PaddlePaddle等各自的深度學習框架為基礎,提供一系列與AI工程相關的生態(tài)技術和工具,如領域套件、模型可視化工具、調試調優(yōu)工具、高級API等。

另一種是AI服務平臺型,也即過去為企業(yè)提供算力、算法、數據相關服務的企業(yè),隨著客戶需求的發(fā)展專門提供面向AI工程化的能力。阿里的“靈杰”(算法方面)與云測數據面向AI工程化的解決方案(數據方面)都是如此。

水到渠成,面向AI工程化的數據解決方案是AI開發(fā)服務不斷成熟的結果

Gartner在《2022年十二大重要戰(zhàn)略技術趨勢》認為,到2025年,前10%做到AI工程化最佳實踐的企業(yè)相對于之后90%的企業(yè),將從AI創(chuàng)新中得到超過3倍的價值,足見AI工程化的重要性。

所以,相關企業(yè)尋求AI工程化成為一種必要,也催生出較為廣闊的產業(yè)鏈機遇空間。

這其中,隨著云測數據推出面向AI工程化的新一代數據解決方案,在對外服務這件事上,數據領域的AI工程化步伐更快一些。在數據方面幾乎都有強烈需求的AI企業(yè)們,已經可以率先獲得整體化的服務。

但是,從云測數據此次發(fā)布的解決方案來看,數據方面的AI工程化雖然是某種程度上的藍海市場,但卻并非人人都可以參與進來提供相關的解決方案以獲取市場機會,它基于已有的AI開發(fā)實踐或服務積累,不是憑空而來,是長期的AI工程化實踐(但沒有喊出這個概念)抽離、整合而來。

以其中的平臺工具模塊為例,其解決方案有豐富的數據標注工具:

以及一個在流程和邏輯上閉環(huán)的數據流轉管理體系(通過這個體系也可以對AI工程化究竟做了什么有更直觀的印象):

這兩大內容,顯然不是一個新晉玩家所能提供的,它們都源于云測數據過去向AI企業(yè)提供通用數據集、數據標注平臺與數據管理系統(tǒng)等生產工具以及多年的AI訓練數據服務的行業(yè)成熟經驗。

云測數據的主要業(yè)務是面向智能駕駛、智慧城市、智能家居、智慧金融、新零售等眾多領域提供一站式AI數據處理服務,已經先后推出過“云測數據標注平臺”、“AI數據集管理系統(tǒng)”等面向市場的成果,其數據標注精度最高做到了99.99%,曾幫助某自動駕駛車企實現數據清洗、標注工作與原流程相比提升2倍的流轉效率。

正是因為過去實現了從“數據原料”到最后的“數據成品”全鏈條打通,做到場景數據專業(yè)化、高質量交付,有足夠的技術成熟度和標注經驗與管理流程,現在云測數據這樣的企業(yè)才能夠推出面向AI工程化的數據解決方案。

除了平臺工具模塊,實際上,云測數據的解決方案在保障數據安全模塊上的部署,也來自于這種積累——必須在數據質量和交付效率之外保證數據安全,自然就沉淀了安全管理的一套體系,現在可以拿過來整體化輸出,既提供了一套安全交付的標準,也包括多個ISO企業(yè)安全體系認證。

以安全交付標準為例,云測數據在硬件配置、網絡安全、物理安全、人員安全管理上都進行了能力設置,這些能力針對AI開發(fā)中涉及數據存儲、傳輸的方方面面,以事先體系化布局而不是事后一個個補漏的方式來規(guī)避數據安全風險,而這,就是“工程化”。

在這種做法下,數據安全的提升是顯而易見的。

最直觀的,由于云測數據所提供這套體系讓數據存儲、數據標注、數據傳遞等有統(tǒng)一的管理,數據的流轉等不需要經過人力環(huán)節(jié)(人力主要負責工單而不是數據本身的流轉,比如不用人力遞送數據硬盤),這使得AI開發(fā)的數據環(huán)節(jié)大大降低了對人的依賴,減少了失誤等風險發(fā)生的可能性。

更進一步看,在平臺工具、安全模塊之外,面向AI工程化的數據服務的機遇只屬于有行業(yè)經驗的企業(yè),也促成后者能夠進行更多業(yè)務合作的探索,人員和項目管理模塊就是如此。

有關數據的AI開發(fā)工作除了技術性的內容,還離不開AI人力相關的管理,離不開項目管理,而云測數據基于其過去在數據方面的人才、項目管理經驗,在解決方案中也提供有匹配人員管理與項目管理的一套并行的體系作為支撐,包括招聘體系、業(yè)績培訓體系、領域知識培訓體系、項目管理體系、責任安全體系、績效職級管理體系等,其本質是以認知資源的共享換取商業(yè)價值,典型如,云測數據更了解數據標注人才的需要、更知道從哪里可以找到特定的人才、如何培育人才、更知道怎么管理項目。

當然,圍繞數據、作為一種根本上的To?B服務,盡管有先天優(yōu)勢,但云測數據面向AI工程化的數據解決方案的落地,還需要考慮對不同AI開發(fā)企業(yè)的適配,畢竟AI工程化是系統(tǒng)工程,牽扯面往往較廣。

這方面,通過API集成屏蔽不同企業(yè)的差異、做到廣泛適配是解決之道,還可以看到,云測數據的解決方案中就在平臺工具模塊中設置了標準協議接口、數據價值可視化、數據處理工作臺、數據權限管理等,來讓不同企業(yè)的管理體系都能快速進行對接。

AI“工業(yè)化大生產”來臨,數據領域的AI工程化與大模型率先匯流

AI工程化其價值和機遇不僅在于AI開發(fā)過程,其對大模型的促進作用也不容忽視。

從更宏觀的視野看,AI工程化的趨勢與當下AI領域的熱點大模型一樣,都是在推動AI“工業(yè)化大生產”(高效率的批量化AI落地,而不是作坊式的一個個生產),只不過一個從開發(fā)全過程出發(fā),一個從模型本身出發(fā)。

二者碰撞到一起并非只是一種巧合,AI工程化與大模型也在實現著協同。

一方面,這體現在大模型開發(fā)本身,也即“預訓練”階段的工程化。

例如,知名NLP領域的大模型GPT-3其模型復雜度非常高,僅模型參數就高達1750億個,訓練數據量達到45TB,訓練出的模型有700GB大小。

這么復雜的工作,肯定不是有了算法、算力以及數據就能搞定的,其開發(fā)工作有31位參與者,形成了一套在數據處理、模型設計、代碼編寫、調試參數等領域各司其職的復雜工作體系來保障工作的順利推進,其本質就是AI工程化。

另一方面,這體現在大模型的場景調優(yōu)上,也即“微調”階段的工程化。

大模型時代許多場景只要基于基礎大模型進行微調便可以產生優(yōu)質的場景應用,云測數據總經理賈宇航認為,AI工程化在這個“微調”的階段將起到重要的作用,幫助更多場景應用高效、高質量交付與持續(xù)優(yōu)化。

現在,隨著云測數據推出面向AI工程化的數據解決方案,以及行業(yè)內許多典型大模型開始走向應用,至少在數據領域,AI工程化與大模型的匯流已經在開始。

當然,也有預訓練階段與“微調”階段通吃的AI工程化服務做法,例如阿里的“靈杰”就宣稱既可以實現超大規(guī)模模型的構建,也可以實現垂直場景小模型“蒸餾”。

無論如何,數據領域的AI工程化與大模型匯流,共同推動AI應用加速實現更廣泛、更優(yōu)質的場景落地,這其中涌現了新的商業(yè)合作機遇,但更重要的是在工程化開發(fā)與預訓練的優(yōu)勢疊加下,AI將真正走入千行百業(yè),變得更加普惠。

THE END
免責聲明:本站所使用的字體和圖片文字等素材部分來源于互聯網共享平臺。如使用任何字體和圖片文字有冒犯其版權所有方的,皆為無意。如您是字體廠商、圖片文字廠商等版權方,且不允許本站使用您的字體和圖片文字等素材,請聯系我們,本站核實后將立即刪除!任何版權方從未通知聯系本站管理者停止使用,并索要賠償或上訴法院的,均視為新型網絡碰瓷及敲詐勒索,將不予任何的法律和經濟賠償!敬請諒解!