一区二区三区A片|Av不卡高清网址|精品久久不卡一本|一区二区三区绿色|五月黄色婷婷久久|综合 另类 一区|亚洲成人VA视频|久久国产特黄大片|成人无码激情亚洲|黄色字幕网址大全

瑞萊智慧相關(guān)團(tuán)隊(duì)發(fā)表論文 找到多模態(tài)大模型「共同弱點(diǎn)」

最近一年來(lái),以GPT-4V為代表的通用多模態(tài)大模型快速發(fā)展,并形成了豐富多樣的落地應(yīng)用,其中不乏自動(dòng)駕駛、政務(wù)問(wèn)答等安全敏感場(chǎng)景。大模型的架構(gòu)均基于深度神經(jīng)網(wǎng)絡(luò),不可避免地承襲了神經(jīng)網(wǎng)絡(luò)對(duì)抗魯棒性差、易受干擾等安全風(fēng)險(xiǎn)。

近日,瑞萊智慧公眾號(hào)發(fā)布文章指出,公司在ICLR 2024的文章《Rethinking Model Ensemble in Transfer-based Adversarial Attacks》中提出了模型“共同弱點(diǎn)”的概念,并據(jù)此研發(fā)算法來(lái)最大化黑盒遷移攻擊的效果。這一攻擊方法可以引發(fā)多個(gè)當(dāng)前最先進(jìn)的商用多模態(tài)大模型(如OpenAI的GPT-4V、谷歌的Bard等)出現(xiàn)各類錯(cuò)誤行為。這一結(jié)果表明當(dāng)下最先進(jìn)的多模態(tài)大模型仍然存在對(duì)抗魯棒性差、易受干擾的風(fēng)險(xiǎn),進(jìn)一步揭示了大模型在實(shí)際應(yīng)用中的安全風(fēng)險(xiǎn),亟需更安全、魯棒、穩(wěn)定的防御算法為其保駕護(hù)航。

在本篇論文中,瑞萊主要研究集成攻擊。集成攻擊指的是攻擊者使用多個(gè)白盒替代模型來(lái)制造對(duì)抗樣本。在這種情況下,對(duì)抗樣本同時(shí)攻擊更多的替代模型,通常能夠提高對(duì)抗樣本對(duì)黑盒模型的遷移性。這可以類比為深度學(xué)習(xí)模型的泛化性,當(dāng)使用更多的訓(xùn)練數(shù)據(jù)的情況下,模型在測(cè)試數(shù)據(jù)上的泛化性往往可以得到提升。因此,采用更多的白盒替代模型也可以提升生成對(duì)抗樣本對(duì)其他黑盒模型的遷移性/泛化性。

然而,之前的集成攻擊方法僅將這些模型的輸出進(jìn)行平均,從而構(gòu)造一個(gè)新模型,然后使用對(duì)抗樣本攻擊這個(gè)新模型。在這種情況下,人們實(shí)際上僅僅利用了這個(gè)“平均模型”的信息,而沒(méi)有充分利用每一個(gè)模型的信息。

瑞萊認(rèn)為要充分利用模型的多樣性,同時(shí)攻擊多個(gè)模型各自的薄弱環(huán)節(jié),找到這些模型的“共同弱點(diǎn)”,進(jìn)而生成遷移性更強(qiáng)的對(duì)抗樣本。通過(guò)分析集成攻擊的損失函數(shù)并將其進(jìn)行二階泰勒展開(kāi),從數(shù)學(xué)上發(fā)現(xiàn)模型“共同弱點(diǎn)”可以表示為搜索空間中不同模型損失曲線的平滑性和它們局部最優(yōu)值之間的相近性。

瑞萊結(jié)合了銳度感知最小化算法(Sharpness Aware Minimization, SAM)和梯度余弦相似度最大化(Cosine Similarity Encourager, CSE)兩個(gè)策略,形成了攻擊“共同弱點(diǎn)”的算法(Common Weakness Attack, CWA)。這一算法可以與當(dāng)前基于梯度的對(duì)抗攻擊算法無(wú)縫組合,來(lái)進(jìn)一步提升對(duì)抗樣本遷移攻擊效果。

同時(shí)瑞萊發(fā)現(xiàn):如果不同模型的梯度方向高度一致,那么針對(duì)這些一致方向優(yōu)化的對(duì)抗樣本將更有可能同時(shí)攻破這些模型。然而,由于實(shí)際情況下模型梯度往往存在差異,我們提出了一種策略,旨在提升不同白盒替代模型梯度的余弦相似度。通過(guò)這種方式,我們可以更有效地定位并利用這些模型的共同脆弱點(diǎn),從而生成具有更強(qiáng)遷移能力的對(duì)抗樣本。

目前,相關(guān)算法已經(jīng)攻破了谷歌的Bard(現(xiàn)更名為Gemini)、OpenAI的GPT-4V、微軟的Bing Chat等多模態(tài)大模型。只需基于開(kāi)源的圖像編碼器(如CLIP、BLIP2),就可以所提出的方法(CWA)生成對(duì)抗樣本并作用于閉源的商用模型上,實(shí)現(xiàn)紅隊(duì)攻擊測(cè)試。在攻擊谷歌Bard時(shí),CWA生成的對(duì)抗樣本可以讓模型將小刀的圖片錯(cuò)誤識(shí)別為“一個(gè)人手里拿著一個(gè)熱狗”,并由于攻擊引起的幻覺(jué)給出了細(xì)致但沒(méi)有根據(jù)的文本描述。此外,模型在攻擊下還會(huì)出現(xiàn)無(wú)法“看到”圖片,因?qū)⒀蝈e(cuò)誤識(shí)別為人而拒絕服務(wù)等錯(cuò)誤行為,極大地影響了模型提供服務(wù)的穩(wěn)定性和可靠性。量化指標(biāo)上,CWA可以在圖像描述的任務(wù)上,分別實(shí)現(xiàn)22%(Bard)、45%(GPT-4V)、26%(Bing Chat)的攻擊成功率。這意味著即使是強(qiáng)大的通用多模態(tài)大模型,依然存在著對(duì)抗魯棒性差的安全風(fēng)險(xiǎn)漏洞。

瑞萊提出的新思路展示了即使是當(dāng)前最先進(jìn)的商用多模態(tài)大模型,依然在安全上存在漏洞。目前主流的對(duì)抗防御方法為對(duì)抗訓(xùn)練,其需要更大的訓(xùn)練開(kāi)銷,同時(shí)會(huì)影響模型的精度,在大模型時(shí)代可用性不強(qiáng)。這啟發(fā)行業(yè)應(yīng)當(dāng)面向大模型設(shè)計(jì)開(kāi)發(fā)更加可靠和全面的安全性評(píng)估框架,同時(shí)持續(xù)改進(jìn)和創(chuàng)新大模型的防御機(jī)制,以確保人工智能系統(tǒng)在面對(duì)各種潛在威脅時(shí)的穩(wěn)健性和可靠性因此。清華大學(xué)和RealAI團(tuán)隊(duì)近期提出了基于生成式建模的新型對(duì)抗防御方法(參見(jiàn)https://arxiv.org/abs/2305.15241;https://arxiv.org/abs/2402.02316),利用生成式模型對(duì)數(shù)據(jù)分布的建模能力,實(shí)現(xiàn)對(duì)抗樣本去噪和魯棒生成式分類器,取得了SOTA的防御效果,為構(gòu)建安全可靠的大模型提供了新的可能性。

論文鏈接:

https://openreview.net/forum?id=AcJrSoArlh

代碼鏈接:

https://github.com/huanranchen/AdversarialAttacks

論文作者:

陳煥然、張亦馳、董胤蓬、楊嘯、蘇航、朱軍

翻譯

搜索

復(fù)制

THE END
免責(zé)聲明:本站所使用的字體和圖片文字等素材部分來(lái)源于互聯(lián)網(wǎng)共享平臺(tái)。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的,皆為無(wú)意。如您是字體廠商、圖片文字廠商等版權(quán)方,且不允許本站使用您的字體和圖片文字等素材,請(qǐng)聯(lián)系我們,本站核實(shí)后將立即刪除!任何版權(quán)方從未通知聯(lián)系本站管理者停止使用,并索要賠償或上訴法院的,均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索,將不予任何的法律和經(jīng)濟(jì)賠償!敬請(qǐng)諒解!