Sep, 2019

利用神经场景图生成器学习视觉关系先验用于图像文本匹配和图像字幕生成

TL;DR通过结合神经场景图生成器和最先进的模型,我们的实验表明用于促进语言到视觉关系的关系特征能够显著改进标准的 Flickr30K 和 MSCOCO 基准测试,在端到端的视觉和语言应用中捕获视觉关系。