EMNLPOct, 2020

Vokenization: 利用视觉引导监督改善语言理解

TL;DR本研究提出了「vokenization」技术,通过将语言令牌与相关的图像(称为「vokens」)上下文映射到语言仅数据中,将多模态对齐推广到仅语言数据,并利用这些生成的 vokens 进行训练。使用这些训练有素的 vokens,我们的视觉监督语言模型在多个语言任务上均表现出了一致的改进。