Apr, 2024

迭代学习在大型视觉语言模型中提高组合性

TL;DR通过引入一种新的迭代训练算法,以文化传播作为归纳先验,本研究以视觉代理和语言代理之间的Lewis信号游戏重新定义了视觉-语言对比学习,并通过在训练过程中迭代重置代理权重的方式实现文化传播,使得模型对于合成语言的特性变得更易于学习,达到了在SugarCrepe评测中相比标准CLIP模型分别提升4.7%和4.0%的效果。