ICCVMar, 2021

基于 Transformer 的多个变化的描述和定位

TL;DR本研究提出基于模拟的多变化字幕数据集并将现有单个变化字幕学习方法应用于多变化字幕任务上,此外,我们还提出 MCCFormers 方法以识别图像对中的变化区域并动态确定与句子中的单词相关的变化区域,该方法在多变化字幕评估指标方面表现出最高得分,在变化局部化方面也表现出色,且优于现有的变化字幕基准。