May, 2025

REVEAL:多轮对图像输入危害的评估框架

TL;DR该研究针对现有安全评估框架对复杂视觉大语言模型(VLLMs)在多模态和多轮对话中的不足,提出了REVEAL框架,旨在自动化和扩展对图像输入危害的评估。研究发现,多轮交互的缺陷率显著高于单轮评估,尤其在错误信息处理上表现出明显的脆弱性,提示需加强背景防御。