Jun, 2021

再次检查:通过视觉蕴涵进行逐步视觉问答

TL;DR本文提出了一种基于视觉蕴含的选择性-重新排名(SAR)渐进式框架解决VQA模型的表面相关性问题,通过选取与图像或问题相关的候选答案,并使用视觉蕴含验证每个答案是否可信,实现了对候选答案的有效排序,从而在VQA-CP v2数据集上取得了7.55%的准确率提高,达到了新的最高水平。