Feb, 2024

几乎零成本的安全微调:视觉大型语言模型的基准

TL;DR当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题,我们筛选了一个视觉语言安全指令数据集 VLGuard,并将其整合到标准的视觉语言微调中,使模型在安全性方面得到了有效的提升,同时对模型的帮助性影响最小甚至有所增强。经验结果表明,经过微调的大型视觉语言模型能够有效拒绝不安全的指令,并大幅降低几种黑盒对抗攻击的成功率。