May, 2024

视觉-语言Transformer是否具备视觉常识?对VCR的经验研究

TL;DR此研究旨在通过提供合理的理由作为预测答案的原因,解释并回答视觉场景问题。尽管Vision-Language Transformers在表现上令人满意,但它们存在预训练效果有限、意外的语言偏见、模型架构受限和忽视重要的物体-标签相关性等缺点。因此,从数据集、评估指标和训练技巧等角度,本研究对于未来研究提出了一些方向,有望让研究人员重新审视VCR的直觉和目标,并帮助克服视觉推理中的挑战。