Jan, 2024

红队模拟可视化语言模型

TL;DR研究通过 RTVLM 数据集评估当前开源 VLM 在红队评测中的性能差距,结果显示这些 VLM 在不同程度上面临红队挑战,并且与 GPT-4V 相比,性能差距高达 31%。将红队诱导方法应用于 LLaVA-v1.5 模型,性能提高了 10% 以上,并显示出其他基于 LLaVA 的模型无法达到的性能,同时产生的数据对性能并无明显下降。