Oct, 2023

VLIS: 单模态语言模型指导多模态语言生成

TL;DR多模态语言生成领域中,我们引入了 VLIS,这是一个新的框架,将视觉语言模型的视觉调节能力与纯文本语言模型的语言理解相结合,通过提取图像和文本之间的点对互信息,并将其作为重要性抽样权重来调整基于文本的模型的标记生成概率,从而在共识理解和复杂文本生成任务上提升了视觉语言模型的性能。VLIS 代表了多模态语言生成的一个有前途的新方向。