May, 2023

多模态预训练中视觉关系的弱监督学习

TL;DR本文研究了使用小规模可视关系数据的预训练方法,包括使用场景图将可视关系三元组转换为结构化说明,以及使用掩模关系预测进一步鼓励从可视上下文中关联实体,并且证明了这些方法从弱监督关系数据中学习多模态表示的有效性。