最近一年來,以GPT-4V為代表的通用多模態(tài)大模型快速發(fā)展,并形成了豐富多樣的落地應(yīng)用,其中不乏自動駕駛、政務(wù)問答等安全敏感場景。大模型的架構(gòu)均基于深度神經(jīng)網(wǎng)絡(luò),不可避免地承襲了神經(jīng)網(wǎng)絡(luò)對抗魯棒性差、易受干擾等安全風(fēng)險。
近日,瑞萊智慧公眾號發(fā)布文章指出,公司在ICLR 2024的文章《Rethinking Model Ensemble in Transfer-based Adversarial Attacks》中提出了模型“共同弱點(diǎn)”的概念,并據(jù)此研發(fā)算法來最大化黑盒遷移攻擊的效果。這一攻擊方法可以引發(fā)多個當(dāng)前最先進(jìn)的商用多模態(tài)大模型(如OpenAI的GPT-4V、谷歌的Bard等)出現(xiàn)各類錯誤行為。這一結(jié)果表明當(dāng)下最先進(jìn)的多模態(tài)大模型仍然存在對抗魯棒性差、易受干擾的風(fēng)險,進(jìn)一步揭示了大模型在實際應(yīng)用中的安全風(fēng)險,亟需更安全、魯棒、穩(wěn)定的防御算法為其保駕護(hù)航。
在本篇論文中,瑞萊主要研究集成攻擊。集成攻擊指的是攻擊者使用多個白盒替代模型來制造對抗樣本。在這種情況下,對抗樣本同時攻擊更多的替代模型,通常能夠提高對抗樣本對黑盒模型的遷移性。這可以類比為深度學(xué)習(xí)模型的泛化性,當(dāng)使用更多的訓(xùn)練數(shù)據(jù)的情況下,模型在測試數(shù)據(jù)上的泛化性往往可以得到提升。因此,采用更多的白盒替代模型也可以提升生成對抗樣本對其他黑盒模型的遷移性/泛化性。
然而,之前的集成攻擊方法僅將這些模型的輸出進(jìn)行平均,從而構(gòu)造一個新模型,然后使用對抗樣本攻擊這個新模型。在這種情況下,人們實際上僅僅利用了這個“平均模型”的信息,而沒有充分利用每一個模型的信息。
瑞萊認(rèn)為要充分利用模型的多樣性,同時攻擊多個模型各自的薄弱環(huán)節(jié),找到這些模型的“共同弱點(diǎn)”,進(jìn)而生成遷移性更強(qiáng)的對抗樣本。通過分析集成攻擊的損失函數(shù)并將其進(jìn)行二階泰勒展開,從數(shù)學(xué)上發(fā)現(xiàn)模型“共同弱點(diǎn)”可以表示為搜索空間中不同模型損失曲線的平滑性和它們局部最優(yōu)值之間的相近性。
瑞萊結(jié)合了銳度感知最小化算法(Sharpness Aware Minimization, SAM)和梯度余弦相似度最大化(Cosine Similarity Encourager, CSE)兩個策略,形成了攻擊“共同弱點(diǎn)”的算法(Common Weakness Attack, CWA)。這一算法可以與當(dāng)前基于梯度的對抗攻擊算法無縫組合,來進(jìn)一步提升對抗樣本遷移攻擊效果。
同時瑞萊發(fā)現(xiàn):如果不同模型的梯度方向高度一致,那么針對這些一致方向優(yōu)化的對抗樣本將更有可能同時攻破這些模型。然而,由于實際情況下模型梯度往往存在差異,我們提出了一種策略,旨在提升不同白盒替代模型梯度的余弦相似度。通過這種方式,我們可以更有效地定位并利用這些模型的共同脆弱點(diǎn),從而生成具有更強(qiáng)遷移能力的對抗樣本。
目前,相關(guān)算法已經(jīng)攻破了谷歌的Bard(現(xiàn)更名為Gemini)、OpenAI的GPT-4V、微軟的Bing Chat等多模態(tài)大模型。只需基于開源的圖像編碼器(如CLIP、BLIP2),就可以所提出的方法(CWA)生成對抗樣本并作用于閉源的商用模型上,實現(xiàn)紅隊攻擊測試。在攻擊谷歌Bard時,CWA生成的對抗樣本可以讓模型將小刀的圖片錯誤識別為“一個人手里拿著一個熱狗”,并由于攻擊引起的幻覺給出了細(xì)致但沒有根據(jù)的文本描述。此外,模型在攻擊下還會出現(xiàn)無法“看到”圖片,因?qū)⒀蝈e誤識別為人而拒絕服務(wù)等錯誤行為,極大地影響了模型提供服務(wù)的穩(wěn)定性和可靠性。量化指標(biāo)上,CWA可以在圖像描述的任務(wù)上,分別實現(xiàn)22%(Bard)、45%(GPT-4V)、26%(Bing Chat)的攻擊成功率。這意味著即使是強(qiáng)大的通用多模態(tài)大模型,依然存在著對抗魯棒性差的安全風(fēng)險漏洞。
瑞萊提出的新思路展示了即使是當(dāng)前最先進(jìn)的商用多模態(tài)大模型,依然在安全上存在漏洞。目前主流的對抗防御方法為對抗訓(xùn)練,其需要更大的訓(xùn)練開銷,同時會影響模型的精度,在大模型時代可用性不強(qiáng)。這啟發(fā)行業(yè)應(yīng)當(dāng)面向大模型設(shè)計開發(fā)更加可靠和全面的安全性評估框架,同時持續(xù)改進(jìn)和創(chuàng)新大模型的防御機(jī)制,以確保人工智能系統(tǒng)在面對各種潛在威脅時的穩(wěn)健性和可靠性因此。清華大學(xué)和RealAI團(tuán)隊近期提出了基于生成式建模的新型對抗防御方法(參見https://arxiv.org/abs/2305.15241;https://arxiv.org/abs/2402.02316),利用生成式模型對數(shù)據(jù)分布的建模能力,實現(xiàn)對抗樣本去噪和魯棒生成式分類器,取得了SOTA的防御效果,為構(gòu)建安全可靠的大模型提供了新的可能性。
論文鏈接:
https://openreview.net/forum?id=AcJrSoArlh
代碼鏈接:
https://github.com/huanranchen/AdversarialAttacks
論文作者:
陳煥然、張亦馳、董胤蓬、楊嘯、蘇航、朱軍
翻譯
搜索
復(fù)制
訪談
更多做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機(jī)遇 破解新挑戰(zhàn)
今年3月份,全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報告》(以下簡稱“報告”),該報告…
數(shù)字化浪潮下,安防廠商如何滿足行業(yè)客戶的定制化需求?
回顧近兩年,受疫情因素影響,包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來自市場 “不確定性”因素的沖擊,市場…
博思高鄧紹昌:乘產(chǎn)品創(chuàng)新及客戶服務(wù)之舟,在市場變革中逆風(fēng)飛揚(yáng)
11月24日,由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國物聯(lián)網(wǎng)產(chǎn)業(yè)大會暨品牌盛會,在深…