May, 2023

密集对齐字幕(DAC)促进视觉语言模型中的组合推理

TL;DR本文探索了影响视觉语言模型组合推理性能的两个因素:对齐图像 - 文本数据集的质量和文本的密度。通过在 CC3M 数据集上 fine-tuning CLIP 模型,我们证明了自动处理这些影响因素的方法可以使模型的组合推理性能显著提高,基于基线模型的表现增加了约 20%,平均提高 6.7%。