May, 2023

LANCE: 通过生成语言引导的对抗性图像进行视觉模型的压力测试

TL;DR提出一种用于自动化模型应力测试的算法 —— 生成基于语言引导的反事实测试图像(LANCE)。利用大型语言模型和基于文本的图像编辑的最新进展,我们可以增加 IID 测试集的多样性和挑战性,而不会改变模型权重。我们基于生成的数据对一系列不同的预先训练模型的性能进行了基准测试,并观察到了显著且一致的性能下降。我们进一步分析了不同类型编辑的模型敏感性,并展示了它在揭示 ImageNet 中以前未知的类别级别模型偏差方面的适用性。