AAAIDec, 2021
共识图表示学习用于更好的基于图像的字幕生成
Consensus Graph Representation Learning for Better Grounded Image Captioning
Wenqiao Zhang, Haochen Shi, Siliang Tang, Jun Xiao, Qiang Yu...
TL;DR本文针对基于场景图的图像描述模型中存在的物体虚幻问题,提出了利用语义完整性和视觉相关性混合的 CGRL 框架,以提高图像描述和定位准确性。结果表明,该方法显著降低了物体虚幻的发生率,同时提高了图像描述和物体定位的质量。