MMFeb, 2021

用正确的图像区域回答问题:一种视觉关注正则化方法

TL;DR本文提出一种名为 AttReg 的视觉关注正则化方法,用于更好地在 VQA 中进行视觉基础。AttReg 首先确定对于问题回答而言关键的图像区域,然后利用基于掩蔽的学习方案来规范化视觉关注,使其更专注于这些被忽略的关键区域。在三个基准数据集上的广泛实验证明,AttReg 的有效性,此外,在将 AttReg 整合到强大的基线 LMH 中时,我们的方法在 VQA-CP v2 基准数据集上实现了 60.00%的新最高准确度,与具有绝对性能增益的 7.01%。