VQA 训练集是用于生成少样本汇集的自对弈环境

May, 2024

VQA 训练集是用于生成少样本汇集的自对弈环境

VQA Training Sets are Self-play Environments for Generating Few-shot Pools

Tautvydas Misiunas, Hassan Mansoor, Jasper Uijlings, Oriana Riva, Victor Carbune

TL;DR大型语言模型和大型视觉模型越来越能够解决组合推理任务，通过突破视觉问题回答基准测试的方法来衡量。然而，现有的解决方案通常涉及大规模预训练和微调数据集的精心构建，这可能代价高昂。本研究提出了一种技术，可以直接利用现有的训练集来构建以任务度量为奖励的计算环境。通过这种方式，我们通过集成外部信号来增强训练集。我们的实验证明了 Gemini 是如何学习使用自身或其他更小且专门的模型来迭代改善训练集上的性能的。我们的方法成功地推广并改善了对图表、信息图和文档视觉问答数据集的零样本表现。

Abstract

large-language models and large-vision models are increasingly capable of solving compositional reasoning tasks, as measured by breakthroughs in visual-question answering benchmarks. However, state-of-the-art sol

large-language models compositional reasoning tasks external tools dataset construction gemini

发现论文，激发创造

VQA-Machine：掌握使用现有视觉算法回答新问题的方法

该研究提出了一种新的 co-attention 模型来利用现成的算法实现图像操作，从而达到居于最先进水平的视觉问答结果。

Dec, 2016

如何将大型视觉语言模型专门化为数据稀缺的 VQA 任务？A：利用未标注图像进行自我训练！

本文介绍了一种自学习数据增强策略，可以在小规模的视觉问答数据集上优化大视觉语言模型，从而增强对对抗性搜索、反事实例子和重述的鲁棒性，提高领域泛化能力，并保留更多数字推理技能。

Jun, 2023

主动寻求并学习实时数据

本文介绍了一种基于元学习和数据检索的视觉问答方法，该方法不需要训练数据，能够使用外部数据来源来回答各种问题，实验表明该方法在 VQA-CP v2 基准测试中表现优异，并且对于迁移学习领域具有更强的稳健性。

Apr, 2019

教小型语言模型如何推广到未见过的组合问题

我们在本文中提出了一种通过多任务监督预训练和密集检索系统的组合来实现对具有挑战性的复合问题的泛化的方法，并且展示了通过添加用于训练的检索增强数据集可以显著提高模型的性能。

Aug, 2023

通过大型语言模型和推理问题提示改进零样本视觉问答

通过生成推理问题提示，为零样本情景中的大型语言模型在零样本视觉问答任务中的问题回答问题选择和生成保持完整性、语义合理性和句法不变性，从而显著提高了大型语言模型在零样本情景中的性能。

Nov, 2023

从场景图自动生成对比集：探究 GQA 的组合一致性

本文介绍了一种新方法，利用语义输入表示生成对比集，以减少注释成本并评估模型在各种语义方面的性能，同时还可以应用于训练集以提高模型鲁棒性。

Mar, 2021

VQA 可能只需要图片标题

本文提出了使用图像 - 标题注释与文本问题生成的神经模型自动导出 VQA 示例的方法，从而改进了 VQA 数据的质量和量，并在零样本准确性方面取得了双位数的业界领先水平。

May, 2022

开放式视觉问题回答（VQA）任务开发和评估中的瓶颈突破：“你对并不代表我错

提出了基于 Alternative Answer Sets (AAS) 的语义度量方法，通过修改现有的 VQA 算法实现多个有效答案，提高了视觉理解和组合问题回答 (GQA) 数据集的表现。

Mar, 2021

通过合成任务数据评估多模态推理模型的能力

该论文通过高分辨率的文本图像生成技术，开发了一种针对多模态推理任务的评估数据生成框架，并使用此框架生成了一种复杂且缺乏数据集支持的任务的合成数据集，以进行性能测试。研究发现，在这项任务上，最先进的视觉问答模型的性能明显低于标准 VQA 任务。

Jun, 2023

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022