Mar, 2023

自监督替换用于细粒度视觉语言预训练

TL;DR本文提出了一种无需对象注释的细粒度自我监督信号,其基于同义词句子改写(HSR)算法提供令牌级别的监督,并使用置换视觉语言建模(RVLM)框架,分别提供被替换语言对比(RLC)和被替换语言模型(RLM)两种方法来学习细粒度对齐,通过多项下游任务的广泛实验,证明了所提出方法的卓越性能。