Oct, 2024

视觉-语言适应如何影响视觉语言模型的安全性?

TL;DR本研究主要探讨视觉-语言适应(VL适应)对原有大语言模型(LLM)安全性的影响,填补了这一领域的研究空白。通过深入分析,发现VL适应在安全性上存在显著降级,尽管采用安全微调方法仍无法完全消除风险。研究提出了权重合并方法,作为保持有用性的同时有效减少安全性下降的最佳解决方案,为未来更可靠的视觉语言模型提供指导。