Jan, 2024
COSMO:简化的对比多模态流模型与交错预训练
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved
Pre-Training
TL;DR在视觉语言预训练的演变过程中,从短文理解到包含扩展文本上下文具有关键作用。通过引入对比损失到文本生成模型中,本文提出了一种结合对比学习和多模态处理的统一框架(ModelName),在涉及文本和视觉数据的任务中,显著提高模型性能,同时降低学习参数。此外,本文介绍了一个首个交叉视频-文本数据集(VideoDatasetName),通过全面的字幕,进一步增强模型在图像-文本任务中的性能。