Jan, 2024

COSMO:简化的对比多模态流模型与交错预训练

TL;DR在视觉语言预训练的演变过程中,从短文理解到包含扩展文本上下文具有关键作用。通过引入对比损失到文本生成模型中,本文提出了一种结合对比学习和多模态处理的统一框架 (ModelName),在涉及文本和视觉数据的任务中,显著提高模型性能,同时降低学习参数。此外,本文介绍了一个首个交叉视频 - 文本数据集 (VideoDatasetName),通过全面的字幕,进一步增强模型在图像 - 文本任务中的性能。