Aug, 2021

ROSITA: 通过跨模态和内部模态知识整合提升视觉语言语义对齐

TL;DRROSITA 是一种新的 VLP 方法,其通过将跨模态和内在知识整合到一个统一的场景图中来增强语义对齐,具体地,它引入了一种结构知识掩蔽策略来使用场景图结构作为支持性先验知识来执行掩蔽语言(区域)建模,从而通过消除在跨模态和内部信息中的干扰信息增强语义对齐。经过了广泛的消融研究和综合分析,ROSITA 在语义对齐方面表现优秀,在三个典型的视觉与语言任务上,在六个基准数据集上优于现有的最先进的 VLP 方法。