Feb, 2021

用正确的图像区域回答问题: 一种视觉关注正则化方法

TL;DR本文提出一种名为AttReg的视觉关注正则化方法,用于更好地在VQA中进行视觉基础。AttReg首先确定对于问题回答而言关键的图像区域,然后利用基于掩蔽的学习方案来规范化视觉关注,使其更专注于这些被忽略的关键区域。在三个基准数据集上的广泛实验证明,AttReg的有效性,此外,在将AttReg整合到强大的基线LMH中时,我们的方法在VQA-CP v2基准数据集上实现了60.00%的新最高准确度,与具有绝对性能增益的7.01%。