Nov, 2022

只用语言数据学习视觉任务,竟然没有图像!

TL;DR本文探讨了如何从文本数据中学习计算机视觉领域所需的高层次技能,并将其转移到视觉任务中,同时提出探究对比模型嵌入空间中不同模态的系统差异,进一步理解和缓解这种关注的策略。实践证明,我们使用仅文本训练数据在图像标注、视觉蕴含、视觉问题回答和视觉新闻等四个代表性任务上建立的模型,性能表现接近仅使用图像训练数据建立的模型,尤其是针对图像标注和视觉蕴含任务的文本训练数据,有望超过 9 个百分点的提升。同时,我们还展示了多种样式的图像标注模型,这些模型使用的不是图像数据和人工策划的语言数据,而是来自于图书、网络或语言模型可用的文本数据。