Nov, 2023

从错误到正确:一种递归方法用于视觉语言解释

TL;DR针对有限注释的视觉推理任务,我们提出了一种递归视觉解释算法(ReVisE),通过逐步计算视觉特征、答案和解释来提高解释质量,同时作为宝贵的用于少样本自我训练的注释,该方法在几项指标上超过以往方法,仅利用人类注释的5%的数据,VCR和VQA-X数据集的BLEU-1得分分别提高了4.2和1.3,突显了我们方法的有效性和数据效率。