Aug, 2021
ROSITA: 通过跨模态和内部模态知识整合提升视觉语言语义对齐
ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and
Intra-modal Knowledge Integration
TL;DRROSITA是一种新的VLP方法,其通过将跨模态和内在知识整合到一个统一的场景图中来增强语义对齐,具体地,它引入了一种结构知识掩蔽策略来使用场景图结构作为支持性先验知识来执行掩蔽语言(区域)建模,从而通过消除在跨模态和内部信息中的干扰信息增强语义对齐。经过了广泛的消融研究和综合分析,ROSITA在语义对齐方面表现优秀,在三个典型的视觉与语言任务上,在六个基准数据集上优于现有的最先进的VLP方法。