Jul, 2024

视觉问答(VQA)的视觉稳健性基准测试

TL;DR可以在现实世界中部署的视觉问答(VQA)系统能够表现得和预期一样好吗?还是它们容易受到现实中的干扰效果(例如图像模糊)的影响,这在敏感应用(如医学 VQA)中可能会有不利影响?我们提出了第一个包含 213,000 个扩充图像的大规模基准测试,挑战多个 VQA 模型的视觉健壮性,并评估现实视觉扰动的强度。此外,我们设计了多个健壮性评估指标,可以聚合为一个统一指标,并适应各种用例。我们的实验揭示了模型大小、性能和对视觉扰动的健壮性之间的关系。我们的基准测试突显了在模型开发中需要平衡考虑模型性能和健壮性的必要性。