CVPRApr, 2023

A-CAP: 带有常识知识的预测字幕生成

TL;DR通过引入一种新任务,即预期字幕,来模拟人类基于时间顺序的视觉暗示进行未来思考的能力,并提出了一种名为 A-CAP 的模型,该模型将常识知识并入预训练的视觉和语言模型中,使其能够进行预期字幕,并在定制的视觉叙述数据集上进行定量和定性评估,A-CAP 优于其他图像字幕方法,为预期字幕建立了一个强大的基线,同时解决了该任务的内在挑战。