ICMLNov, 2021

多层次视觉语言预训练:将文本与视觉概念对齐

TL;DR提出了一种名为 X-VLM 的多粒度视觉语言预训练方法,通过定位图像中的视觉概念并将其与文本进行对齐,实现了多粒度对齐,并将其应用于下游视觉语言任务中取得了优秀的效果,并超越了现有的最先进方法。