Jun, 2020

玫瑰是红的,紫罗兰是蓝的…… 但 VQA 应该期望它们出现吗?

TL;DR本文提出了 GQA-OOD 基准来评估视觉问答模型的推理能力,旨在解决现有基准存在的数据集偏差和评估方法的不足,并通过大规模实验验证了现有模型在处理罕见概念时的不足,提出了减少偏差的技术用于未来研究。