基于零样本知识生成的基于知识的视觉问答

ACLFeb, 2024

基于零样本知识生成的基于知识的视觉问答

Knowledge Generation for Zero-shot Knowledge-based VQA

Rui Cao, Jing Jiang

TL;DR基于预训练语言模型的知识生成方法在知识型视觉问答方面表现优于以往零样本方法，生成的知识普遍相关且有帮助。

Abstract

Previous solutions to knowledge-based visual question answering~(K-VQA) retrieve knowledge from external knowledge bases and use supervised learning to train the K-VQA model. Recently pre-trained llms have been u

knowledge-based visual question answering pre-trained llms zero-shot qa model knowledge generation interpretability

发现论文，激发创造

发现差距：面向视觉问答的知识库推理

我们分析了基于知识的视觉问答，研究问题是：1）我们能通过显式有监督检索相关知识解决知识库 - 视觉问答问题吗？2）任务特定模型和预训练语言模型在视觉和外部知识的整合以及多跳推理方面的表现如何？3）预训练语言模型的隐式知识足够用于知识库 - 视觉问答吗？结果表明，将特定任务和预训练语言模型与显式的外部和视觉知识检索模型相结合可以取得良好效果。预训练语言模型在 1 跳推理方面更强，但在 2 跳推理方面不如我们精调的神经网络模型，尽管两种模型都可以获取两种信息的相关信息。此外，我们观察到预训练语言模型在与知识库相关的问题上优于神经网络模型，这证实了预训练语言模型中隐式知识的有效性，然而，它们并不能代替对外部知识的需求。

Apr, 2024

通过大型语言模型和推理问题提示改进零样本视觉问答

通过生成推理问题提示，为零样本情景中的大型语言模型在零样本视觉问答任务中的问题回答问题选择和生成保持完整性、语义合理性和句法不变性，从而显著提高了大型语言模型在零样本情景中的性能。

Nov, 2023

使用知识图谱的零样本视觉问答

本研究提出了一种使用知识图谱和基于掩码的学习机制来更好地结合外部知识的零样本 VQA 算法，并在 F-VQA 数据集上提出了新的基于答案的零样本 VQA 切分。实验表明，我们的方法在处理未见过的答案方面可以实现最先进的性能，并显著增强现有的端到端模型在正常的 F-VQA 任务上的表现。

Jul, 2021

零样本视觉问答

本文提出了一种评估 VQA 方法能力的新协议，该方法旨在衡量其执行零摄影技术需求 (Zero-Shot VQA) 的能力，并在此过程中凸显了当前方法的一些实际缺陷，其中一些缺陷被当前数据集中的偏见掩盖。通过在预训练单词嵌入和物体分类器等方面进行实验，我们提出并评估了多种实现零摄影技术需求的策略，并在标准 VQA 评估设置中实现了最先进的性能。

Nov, 2016

基于知识的视觉问答的简单基准

这篇研究论文介绍了一种基于知识的视觉问答（KB-VQA）问题的方法，通过在上下文中进行高效的学习，使用问题相关的标题作为上下文信息，而无需训练或访问外部数据库或 API，实现了最先进的准确度。

Oct, 2023

无需进一步训练的预训练基础模型应对 VQA

通过结合预训练大型语言模型和其他基础模型，本研究探索了一种无需进一步训练即可解决视觉问答问题的方法，并对不同的解码策略在 VQAv2 数据集上进行了性能评估。

Sep, 2023

LaKo: 基于知识驱动的视觉问答，通过后期知识注入到文本中

本文提出了一种知识驱动的视觉问题回答方法，通过后期注入机制将知识图谱中的三元组转化为文本格式，采用有效的编码器 - 解码器模型以将 VQA 任务视为文本生成任务，取得了 OKVQA 数据集上的最佳效果。

Jul, 2022

在上下文学习中进行知识库问答的选择

该研究提出了一种基于 LLMs 的 McL-KBQA 框架，通过基于 ICL 的多选项将 LLMs 的 Few-shot 能力纳入 KBQA 方法，从而提高了 QA 任务的有效性和泛化性能。在两个 KBQA 数据集上的实验结果表明，McL-KBQA 具有竞争性的性能和强大的泛化性能。研究者期望从 LLMs 的角度探索 QA 任务的新方法，并获得规范和正确的答案和强大的泛化性。

May, 2023

知识增强语言模型为零 - shot 知识图谱问答做准备

提出了一种通过直接在 LLM 的输入中添加知识以增强其内部存储的知识的方法，称为 KAPING，通过在知识图上检索相关事实来改善零 - shot 闭书问答任务性能，经验证跨多个大小不同的 LLM，基于事实的知识增强方法相对于相关零 - shot 基线的平均表现提高达 48%。

Jun, 2023

基于大型语言模型的知识导向视觉问答中的模态感知集成

基于知识的视觉问答（KVQA）对于利用外部知识，如知识图谱（KGs）来回答视觉问题进行了广泛研究。本文提出了一种新颖的 LLMs 模态感知集成方法（MAIL），用于 KVQA，它巧妙地利用多模态知识进行图像理解和知识推理，并在两个基准数据集上的实验证明了 MAIL 的卓越性能。

Feb, 2024