ECCVJun, 2019

无需定位监督学习生成有依据的视觉描述

TL;DR通过使用循环训练程序来帮助模型在生成句子描述并从本地化的图像 / 视频区域中重建句子以匹配基本事实的过程中,提高了图像标题生成模型的文本本地化能力,而不需要使用本地化监督或在推理过程中引入额外的计算。