CVPRMay, 2022

超越预训练目标检测器:图像字幕生成中的跨模态文本和视觉语境

TL;DR本文提出了一种通过添加辅助输入以表示缺失信息(例如物体关系)来改进视觉描述模型的方法,并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中,该方法取得了良好的表现。