May, 2024

视觉 - 语言 Transformer 是否具备视觉常识?对 VCR 的经验研究

TL;DR此研究旨在通过提供合理的理由作为预测答案的原因,解释并回答视觉场景问题。尽管 Vision-Language Transformers 在表现上令人满意,但它们存在预训练效果有限、意外的语言偏见、模型架构受限和忽视重要的物体 - 标签相关性等缺点。因此,从数据集、评估指标和训练技巧等角度,本研究对于未来研究提出了一些方向,有望让研究人员重新审视 VCR 的直觉和目标,并帮助克服视觉推理中的挑战。