CVPRMay, 2021

语言结构作为视觉场景图生成的弱监督

TL;DR本文研究了在场景图生成中如何利用语言结构以及图像标题,通过弱化的监督模式提高模型性能,相比起传统的三元组监督模式,更具伸缩性且更适用于多模态数据。