AAAIFeb, 2022

基于预训练和对比学习的图像差异字幕生成

TL;DR本文提出了一种基于自监督学习的图像差异描述任务的建模框架,并通过对比学习策略来提高视觉与语言的相关性,同时使用数据扩展方法利用多余的监督信息来拓宽有限的数据集,实验表明这种方法有效。