AAAIDec, 2021

共识图表示学习用于更好的基于图像的字幕生成

TL;DR本文针对基于场景图的图像描述模型中存在的物体虚幻问题,提出了利用语义完整性和视觉相关性混合的 CGRL 框架,以提高图像描述和定位准确性。结果表明,该方法显著降低了物体虚幻的发生率,同时提高了图像描述和物体定位的质量。