Feb, 2023

多模视觉监督对语言有益吗?

TL;DR本文探讨和研究使用视觉监督学习的语言表示相对于常规语言表示对自然语言理解和常识推理基准测试的优劣,并根据多个图文模型和视频文本模型的实验结果发现,常规语言表示在多数任务中表现更好,揭示了视觉 - 语言模型当前的缺陷。