
BlueSuffix 在保持良性样本性能的同时,有效降低了跨模态攻击成功率。
作者丨赵蕴涵
随着多模态大模型在人工智能领域的广泛应用,其安全性问题日益受到关注。近日,复旦大学联合香港城市大学、新加坡管理大学的研究团队在视觉-语言模型
https://openreview.net/forum?id=wwVGZRnAYG
GitHub主页:
https://github.com/Vinsonzyh/Bl
1、研究背景:多模态大模型安全挑战
近年来,将多模态能力融入大语言模型(LLM)的研究显著增加,但多模态融合在提升模型能力的同时,也带来了跨模态鲁棒性问题,尤其是跨模态越狱攻击的威胁日益凸显。现有防御方法主要分为白盒和黑盒两类:白盒防御虽能直接访问模型参数,但存在应用场景受限、算力需求高等问题;黑盒防御虽不依赖模型内部结构,但现有方法未能充分利用跨模态信息,且对良性样本的回复效果影响较大。
2、基于强化微调的黑盒通用防御方法:BlueSuffix
研究团队提出的BlueSuffix架构创新性地结合了图像和文本防御技术,通过双模态协同防御机制提升模型安全性(如图1所示)。该架构首先利用视觉和文本净化器进行初步防御,随后通过强化微调技术优化语言模型(GPT-2
BlueSuffix由三部分组成(如图2所示):1)基于扩散模型的图像净化器,用于防御视觉输入中的对抗性扰动;2)基于大语言模型的文本净化器,按照特定模板重写文本提示,在不改变原意的前提下使视觉-语言模型更容易识别输入文本提示存在的有害内容;3)基于大语言模型的蓝队后缀生成器,通过强化学习,融入视觉和文本信息对轻量的语言模型(GPT-2)进行微调,以应对跨模态鲁棒性问题。引入图像净化器和文本净化器既可以帮助后缀生成器做进一步防御,又可以降低后缀生成器生成后缀时对良性样本回复效果的负面影响。
3、全面防御性能评估
(1)基础防御性能
研究团队在4个主流视觉-语言模型(LLaVA、MiniGPT-4
实验针对6种典型攻击方法(VAA
特别值得注意的是,BlueSuffix对VAA、imgJP、GCG和AutoDAN四种攻击的防御成功率达到了100%(ASR=0),即使面对当前最先进的跨模态攻击BAP Attack,其防御效果也远超现有方法(如图3所示)。
(2)通用性验证
为进一步验证BlueSuffix的通用性,研究团队在RedTeam-2K数据集上进行了迁移性实验,如图4所示。结果显示,BlueSuffix在开源和商业视觉-语言模型上均表现出优异的迁移能力,分别将BAP Attack的攻击成功率降低了约70%和50%(如图4所示)。这一结果证明了该方法的广泛适用性。
(3)鲁棒性测试
此外,研究团队还引入了自适应攻击场景,通过动态调整攻击策略验证BlueSuffix的鲁棒性。实验结果表明,即使在对抗性环境下,BlueSuffix仍能保持稳定的防御性能,展现了其在实际应用中的可靠性。
4、研究贡献总结
本研究的主要贡献可概括为以下两个方面:
(1)创新性防御架构
研究团队提出了基于强化微调的黑盒防御新架构BlueSuffix。该架构采用模块化设计,各组件具有即插即用特性,能够灵活整合现有图像与文本模态的防御方法,为多模态大模型安全防御提供了通用解决方案。
(2)基于强化学习微调的跨模态优化
BlueSuffix创新性地提出了基于强化微调的跨模态优化方法。该方法通过结合文本与视觉模态信息,将轻量级语言模型微调为蓝队后缀生成器,在保持模型原有对齐性能的同时,显著降低了对良性样本回复效果的影响。这一突破性方法为多模态大模型的安全防御开辟了新方向。