Oct, 2023

CapsFusion: 大规模重塑图像 - 文本数据

TL;DR为了提供更高质量和更可扩展的多模态预训练数据,我们提出了 CapsFusion,一种先进的框架,利用大型语言模型从基于网络的图像文本对和合成字幕中巩固和完善信息。大量实验证明,CapsFusion 字幕在模型性能(例如,COCO 和 NoCaps 上的 CIDEr 分数提高了 18.8%和 18.3%)、样本效率(比基准计算需求少 11-16 倍)、世界知识深度和可扩展性方面展示出卓越的全面优势。这种有效性、效率和可扩展性优势使 CapsFusion 成为未来大规模多模态模型训练的有希望的候选者。