Nov, 2022
X$^2$-VLM:图像和语言任务的多功能预训练模型
X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks
Yan Zeng, Xinsong Zhang, Hang Li, Jiawei Wang, Jipeng Zhang...
TL;DR这篇论文提出了一种名为 multi-grained vision language pre-training 的视觉语言联合预训练方法,它可以在多个粒度上学习视觉语言对齐。该论文还提出了一个名为 X$^2$-VLM 的预训练模型,它采用了模块化架构,可在图像文本任务和视频文本任务中实现最佳性能和模型规模间的良好平衡,并显示了其高可转移性,可以在任何语言或领域中使用。