无需进一步训练的预训练基础模型应对 VQA

Sep, 2023

无需进一步训练的预训练基础模型应对 VQA

Tackling VQA with Pretrained Foundation Models without Further Training

Alvin De Jun Tan, Bingquan Shen

TL;DR通过结合预训练大型语言模型和其他基础模型，本研究探索了一种无需进一步训练即可解决视觉问答问题的方法，并对不同的解码策略在 VQAv2 数据集上进行了性能评估。

Abstract

large language models (LLMs) have achieved state-of-the-art results in many natural language processing tasks. They have also demonstrated ability to adapt well to different tasks through zero-shot or few-shot settings. With the capability of these LLMs, researchers have looked into ho

large language models visual question answering vqa problem image-text dataset decoding strategies

发现论文，激发创造

大型语言模型为文本丰富的 VQA 带来的优势

基于文本识别的图像视觉问答是一个跨模态任务，需要图像理解和文本识别。本文研究了基于 LLM 方法在解决此问题时的优势和瓶颈，并通过整合 OCR 模块和 MLLM 发现多数 MLLM 可以理解 OCR 信息，为训练保留 LLM 能力提供了启示。

Nov, 2023

冻结 LLMs 的少样本 VQA 方法比较

通过对 LLMs 的两种输入图像的方法进行比较，本研究发现对于具有 3B 参数 LLMs 的 Flan-T5 XL 模型，将图像特征嵌入直接连接到 LLM 嵌入空间并不能保证相比使用图像标题获得更好的性能，在零样本情况下，使用文本图像标题效果更好。在少样本情况下，如何选择上下文示例决定了哪个更好。

Mar, 2024

视觉问答指导：解锁面向特定领域视觉多任务的多模态大型语言模型

使用大型语言模型和多模态语言模型，我们开发了一种方法将特定领域的视觉和视觉 - 语言数据集转化为统一的问答格式，从而扩展了多模态语言模型用于特定领域任务，实验结果表明该方法在特定领域的视觉任务和视觉 - 语言任务上达到了高分数指标并保持了多任务的性能。

Feb, 2024

为视觉问答填补图像信息缺口：引导大规模语言模型主动提问

通过设计一种框架，使得大型语言模型能够主动提问以揭示图像中的更多细节，改进了知识驱动的视觉问答任务的性能。

Nov, 2023

基于零样本知识生成的基于知识的视觉问答

基于预训练语言模型的知识生成方法在知识型视觉问答方面表现优于以往零样本方法，生成的知识普遍相关且有帮助。

Feb, 2024

通过大型语言模型和推理问题提示改进零样本视觉问答

通过生成推理问题提示，为零样本情景中的大型语言模型在零样本视觉问答任务中的问题回答问题选择和生成保持完整性、语义合理性和句法不变性，从而显著提高了大型语言模型在零样本情景中的性能。

Nov, 2023

大型语言模型是视频问答中的时间和因果推理器

通过使用 Flipped-VQA 框架，我们成功应用于 LLaMA-VQA 和其它 LLMs 模型，取得了在五个具有挑战性的 VideoQA 基准测试中优于基于 LLMs 和非 LLMs 模型的结果，并且实验证明 Flipped-VQA 不仅增强了语言快捷方式的利用，还减轻了由于过度依赖问题而导致错误答案的语言偏见。

Oct, 2023

大规模预训练模型是否可帮助视觉模型完成感知任务？

本文提出一种新的学习范式，通过利用提前训练的大型模型来增强传统视觉模型的表示能力，并在多个视觉模型中验证了该算法的有效性，可以提高图像分类等任务的准确性。

Jun, 2023

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

数据效率改进基于感知增强的 LLMs 基准

大语言模型在计算机视觉领域中通过不同的接口机制实现图像字幕和视觉问题回答的任务，通过实验评估各种接口机制和数据集，发现现有机制在多个任务中表现更好，并识别出一种新的接口机制，在不同任务上获得接近最优的结果，并降低了训练时间。

Mar, 2024