Mar, 2024

语言在 CLIP 对象 - 属性组合泛化中起着关键作用

TL;DR通过研究图像与语言模型 (CLIP) 在不同类型的分布转换下的通用性,重点关注图像与语言模型在新颖的属性 - 对象配对组合中的分类能力。研究表明,使用大规模的训练数据和语言监督可以显著提高视觉 - 语言模型的组合泛化能力。