May, 2024

VQA 训练集是用于生成少样本汇集的自对弈环境

TL;DR大型语言模型和大型视觉模型越来越能够解决组合推理任务,通过突破视觉问题回答基准测试的方法来衡量。然而,现有的解决方案通常涉及大规模预训练和微调数据集的精心构建,这可能代价高昂。本研究提出了一种技术,可以直接利用现有的训练集来构建以任务度量为奖励的计算环境。通过这种方式,我们通过集成外部信号来增强训练集。我们的实验证明了 Gemini 是如何学习使用自身或其他更小且专门的模型来迭代改善训练集上的性能的。我们的方法成功地推广并改善了对图表、信息图和文档视觉问答数据集的零样本表现。