CVPRApr, 2024

利用自我训练大型语言模型改进视觉程序合成与视觉强化

TL;DR利用交互式经验反馈改进大规模语言模型的视觉程序合成能力,通过利用现有的视觉语言任务注释为该任务创造一个粗略的奖励信号,将语言模型作为一种策略,并应用增强的自训练,显示出在对象检测、复合视觉问答和图像 - 文本检索方面,经过自训练的语言模型在每种情况下优于或与量级更大的少样本冻结的语言模型相媲美。