LOVA3：学习视觉问答、提问和评估

May, 2024

LOVA3：学习视觉问答、提问和评估

LOVA3: Learning to Visual Question Answering, Asking and Assessment

Henry Hengyuan Zhao, Pan Zhou, Difei Gao, Mike Zheng Shou

TL;DR通过引入名为 LOVA3 的创新框架，我们的研究旨在扩展 Multimodal Large Language Models（MLLMs）的能力，包括回答、提问和评估问题，在提高多模态理解能力和性能方面取得了一致的改进。

Abstract

question answering, asking, and assessment are three innate human traits crucial for understanding the world and acquiring knowledge. By e

question answering asking assessment multimodal large language models lova3

发现论文，激发创造

SQ-LLaVA: 大规模视觉语言助手的自问自答

近期视觉语言模型的进展在视觉指导调整后，在视觉语言任务中展现了显著的泛化能力。这篇论文通过利用视觉指导数据中被忽视的上下文信息，训练模型进行自我监督学习以提问高质量问题，引入了称为 SQ-LLaVA 的新框架。SQ-LLaVA 在分析视觉线索和先前的语言知识时表现出高水准的泛化视觉理解能力，与传统的视觉指导调整方法相比，将 SQ-LLaVA 在更高质量的指导数据上进行微调可以持续提高性能，突显了自问技术在不同语境下实现更深入和细腻的视觉内容理解能力。

Mar, 2024

视觉问答指导：解锁面向特定领域视觉多任务的多模态大型语言模型

使用大型语言模型和多模态语言模型，我们开发了一种方法将特定领域的视觉和视觉 - 语言数据集转化为统一的问答格式，从而扩展了多模态语言模型用于特定领域任务，实验结果表明该方法在特定领域的视觉任务和视觉 - 语言任务上达到了高分数指标并保持了多任务的性能。

Feb, 2024

有选择性地回答视觉问题

近期，大型多模态模型在视觉任务中表现出前所未有的精确性，尤其对于帮助盲人或视障人士提供准确答案至关重要，而模型的校准和不确定性量化对于有选择性地回答问题或请求澄清非常重要。我们对在上下文学习的多模态模型上进行 VQA 校准方法和度量的深入分析，研究了两个回答能力基准测试中的 VQA，结果显示，对于上下文学习来说，视觉模型的可能性得分比其纯文本模型更为校准，尽管基于采样的方法通常更优，但没有明确的赢家。我们提出了 Avg BLEU，这是一种结合了两种模式的采样和可能性方法优点的校准评分。

Jun, 2024

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

Q-Boost: 低层多模态基础模型的视觉质量评估能力研究

通过引入中性提示和多提示集成两个关键的组成部分，Q-Boost 方法在图像质量评估和视频质量评估任务中增强了低级多模态大语言模型在低级视觉问题方面的能力，并展示了优秀的零样本性能。

Dec, 2023

问答式学习

本文介绍了一种基于 “学问即问”（LBA）的交互式学习框架用于开发和测试智能视觉系统在视觉问题回答方面的应用，不同于标准的 VQA 训练，LBA 更接近自然学习且可能具有更高的数据效率，自动生成的数据在 CLEVR 数据集上具有很好的性能和表现，对最新的 VQA 模型和新的测试数据分布具有很好的推广与实现。

Dec, 2017

从图像到语言：对视觉问答（VQA）方法、挑战和机遇的关键分析

通过调查 Visual Question Answering（视觉问题回答）领域的复杂性，本研究提供了对 VQA 数据集和方法的详细分类，展示了该领域的最新趋势、挑战和改进方向，并将 VQA 推广到多模态问答，探索与 VQA 相关的任务，并提出了一系列未来研究的开放性问题。

Nov, 2023

视觉语言问答 (VLQA) 挑战赛

新方法和基础性性能的比较与现有机器学习方法中挑战的问题进行了讨论，最终提出了 Visuo-Linguistic Question Answering 作为计算机视觉和自然语言处理的基准测试集。

May, 2020

走向自顶向下推理：可解释的多代理视觉问答方法

本论文提出了一个可解释的多智能体协作框架，通过利用在广泛语料库上训练的大型语言模型中嵌入的知识，以人类认知为灵感，使用三个智能体，即探索者、回答者和整合者，进行自顶向下推理过程，从而明确地构建特定图像场景的多视图知识库，以自顶向下的处理方式推理答案。我们在多样化的视觉问答数据集和视觉语言模型上对我们的方法进行了广泛评估，并通过全面的实验结果证明了其广泛的适用性和可解释性。

Nov, 2023

视觉问答的多模态潜在交互网络

该研究提出了一种多模态潜在交互模块（MLI），用于学习图像问题答案中潜在的视觉和语言信息之间的跨模态关系，从而最大化地汇总了两种信息来源，并且与预训练语言模型 BERT 结合可以显着提高性能，达到了竞争性的结果。

Aug, 2019