Apr, 2025
我们真的需要策划的恶意数据来进行多模态大语言模型的安全对齐吗?
Do We Really Need Curated Malicious Data for Safety Alignment in
Multi-modal Large Language Models?
TL;DR本研究探讨了多模态大语言模型(MLLMs)安全对齐的问题,指出现有模型在多模态输入下存在对齐缺口。通过对比实验发现,数据分布偏见是主要原因,并提出了一种新方法,即对模型进行微调,使用简单的拒绝句替换响应,显著提高安全性,而无需劳动密集型的恶意数据收集。