CVPRApr, 2024

迭代学习在大型视觉语言模型中提高组合性

TL;DR通过引入一种新的迭代训练算法,以文化传播作为归纳先验,本研究以视觉代理和语言代理之间的 Lewis 信号游戏重新定义了视觉 - 语言对比学习,并通过在训练过程中迭代重置代理权重的方式实现文化传播,使得模型对于合成语言的特性变得更易于学习,达到了在 SugarCrepe 评测中相比标准 CLIP 模型分别提升 4.7% 和 4.0% 的效果。