VQA模型中的注意力模式零-shot翻译为自然语言

Nov, 2023

VQA模型中的注意力模式零-shot翻译为自然语言

Zero-shot Translation of Attention Patterns in VQA Models to Natural Language

Leonard Salewski, A. Sophia Koepke, Hendrik P. A. Lensch, Zeynep Akata

TL;DRZS-A2T是一个零射击框架，将给定模型的转换器注意力转换为自然语言而无需任何训练，以可理解形式提供关于该模型的见解。它在视觉问答（VQA）的上下文中构建在预训练的大型语言模型上，并通过利用VQA模型的文本-图像匹配能力来确定其相似性，从而实现了无需训练并能够替换不同引导来源（例如属性而非注意力矩阵）或语言模型的框架。在VQA的文本解释数据集上进行了评估，并在GQA-REX和VQA-X的零射击设置中达到了最先进的性能。

Abstract

Converting a model's internals to text can yield human-understandable insights about the model. Inspired by the recent success of training-free approaches for image captioning, we propose ZS-A2T, a zero-shot framework that translates the →

发现论文，激发创造

零样本视觉问答

本文提出了一种评估 VQA 方法能力的新协议，该方法旨在衡量其执行零摄影技术需求 (Zero-Shot VQA) 的能力，并在此过程中凸显了当前方法的一些实际缺陷，其中一些缺陷被当前数据集中的偏见掩盖。通过在预训练单词嵌入和物体分类器等方面进行实验，我们提出并评估了多种实现零摄影技术需求的策略，并在标准 VQA 评估设置中实现了最先进的性能。

Nov, 2016

Plug-and-Play VQA: 使用预训练模型进行零训练的零样例VQA

提出了一种基于模块化框架的零样本视觉问答方法，使用自然语言和网络解释作为中间表示来连接预训练模型，无需额外训练预训练语言模型，实现了领先于最新端到端训练基线的全面表现，可在零样本 VQAv2 和 GQA 上实现最优结果。

Oct, 2022

从图像到文本提示：使用Frozen大语言模型进行零样本VQA

提出了Img2Prompt模块，它可以提供可以描述图像内容和自构建问题答案对的提示，并且能够帮助LLMs执行无需端到端训练的零射击VQA任务。

Dec, 2022

基于预训练模型的模块化零样本视觉问答

本文探讨如何利用预训练模型来支持零样本视觉问答，通过模块化的零样本网络将问题分解成子理性步骤，并将子任务分配给适当的预训练模型以实现更好的可解释性。实验表明，我们的方法比其他基线方法更具有效性和可解释性。

May, 2023

探讨零样本和少样本视觉问答的提示技术

本研究探索了使用各种提示策略来增强零样本视觉问答性能的方法，重点关注BLIP2模型，通过在多个视觉问答数据集上进行全面研究，发现精心设计的问题模板和集成附加视觉提示，如图像标题，可以提高VQA绩效，特别是在与少量样本示例结合使用时。

Jun, 2023

UniFine: 一种用于零样本视觉-语言理解的统一和细粒度方法

本文提出了一个统一的框架，以利用精细的信息实现零样本视觉语言学习，涵盖了多个任务，如视觉问题回答，SNLI-VE和VCR，并证实了该方法的有效性和泛化性。

Jul, 2023

视觉裁剪提升多模态大型语言模型的零指导问题回答

这项研究探讨了多模态大型语言模型在处理不同图像和问题属性时是否能够感知图像的细节，并表明它们在回答视觉问题的零样本准确性受到问题中视觉主体大小的敏感性，但通过人工裁剪可以显著缓解这种敏感性影响，并提出了三种自动图像裁剪方法用于改进多模态大型语言模型的零样本性能。

Oct, 2023

探索零样本视觉问答的问题分解

通过研究和应用视觉-语言模型，本文提出了问题分解策略和模型驱动的选择性分解方法，以提高视觉问答任务的准确性和性能。

Oct, 2023

通过大型语言模型和推理问题提示改进零样本视觉问答

通过生成推理问题提示，为零样本情景中的大型语言模型在零样本视觉问答任务中的问题回答问题选择和生成保持完整性、语义合理性和句法不变性，从而显著提高了大型语言模型在零样本情景中的性能。

Nov, 2023

通过问题驱动的图像标题作为提示，增强视觉问答能力

通过在视觉问题回答（VQA）过程中利用图像描述作为中介步骤，建立零样本设置，探索了零样本VQA的影响。比较了最先进的图像描述模型对于不同问题类型的VQA性能在结构和语义上的影响，并在VQA过程中提出了一种简单高效的问题驱动图像描述方法，通过提取问题关键词、为每个图像-问题对生成描述，并将问题驱动的描述传输到大型语言模型中。研究发现利用图像描述和大型语言模型的能力，在零样本设置下能够实现竞争性的GQA性能。

Apr, 2024