ACLMar, 2022

CARETS: 用于视觉问答的一致性和鲁棒性测试套件

TL;DR引入 CARETS 系统测试套件,通过一系列六种细粒度能力测试来衡量现代 VQA 模型的一致性和鲁棒性。我们在 CARETS 上评估了六个现代 VQA 系统,并确定了模型理解中的若干可操作性弱点,特别是在否定、或运算或超义不变性等概念方面。我们发布 CARETS 以作为可扩展的工具,用于评估多模态模型的鲁棒性。