大型语言模型为文本丰富的VQA带来的优势

Nov, 2023

大型语言模型为文本丰富的VQA带来的优势

What Large Language Models Bring to Text-rich VQA?

Xuejing Liu, Wei Tang, Xinzhe Ni, Jinghui Lu, Rui Zhao...

TL;DR基于文本识别的图像视觉问答是一个跨模态任务，需要图像理解和文本识别。本文研究了基于LLM方法在解决此问题时的优势和瓶颈，并通过整合OCR模块和MLLM发现多数MLLM可以理解OCR信息，为训练保留LLM能力提供了启示。

Abstract

text-rich vqa, namely Visual Question Answering based on text recognition in the images, is a cross-modal task that requires both image comprehension and text recognition. In this work, we focus on investigating the advantages and bottlenecks of →

发现论文，激发创造

视觉问答作为阅读理解

本研究提出了一种基于机器阅读理解的方法，通过将视觉和文本特征统一到自然语言中以解决视觉问答中的多模态特征融合问题，并能够处理大规模外部知识库等基于知识的问题。实验结果表明，该方法在三个数据集上性能具有可比性，此为利用文本和自然语言处理技术解决视觉问答问题的一步。

Nov, 2018

面向TextVQA的结构化多模态关注力

本文提出了一种端到端的结构化多模态关注神经网络，通过使用图形表示和多模态图形注意网络设计来处理TextVQA中的可视文本问答问题，并通过全局-本地注意回答模块生成答案，其中使用了OCR和通用词汇识别技术。实验证明该模型在TextVQA数据集和ST-VQA数据集等两个任务中超过了SoTA模型。

Jun, 2020

提升文本-视觉问答中的文本表达

通过结合TextVQA和VQA数据集，我们提出了一种方法，在文本和图像特征之间增加了理解和关联性，从而提高了对问题的回答准确性。

Aug, 2023

BLIVA：一个简单的多模态LLM用于更好地处理文本丰富的视觉问题

通过在语言模型中添加视觉理解能力，BLIVA能够显著提高处理富含文本的视觉问答任务的性能，并在典型的视觉问答基准上取得了较高的准确率。

Aug, 2023

无需进一步训练的预训练基础模型应对VQA

通过结合预训练大型语言模型和其他基础模型，本研究探索了一种无需进一步训练即可解决视觉问答问题的方法，并对不同的解码策略在VQAv2数据集上进行了性能评估。

Sep, 2023

为视觉问答填补图像信息缺口：引导大规模语言模型主动提问

通过设计一种框架，使得大型语言模型能够主动提问以揭示图像中的更多细节，改进了知识驱动的视觉问答任务的性能。

Nov, 2023

视觉问答指导：解锁面向特定领域视觉多任务的多模态大型语言模型

使用大型语言模型和多模态语言模型，我们开发了一种方法将特定领域的视觉和视觉-语言数据集转化为统一的问答格式，从而扩展了多模态语言模型用于特定领域任务，实验结果表明该方法在特定领域的视觉任务和视觉-语言任务上达到了高分数指标并保持了多任务的性能。

Feb, 2024

冻结大型语言模型在视觉信号理解中的应用

我们研究了大型语言模型（LLM）在没有对多模态数据集进行微调的情况下，直接理解视觉信号的潜力。我们提出了一种视觉到语言的分词器（V2T Tokenizer），通过编码器-解码器、LLM词汇表和CLIP模型将图像转换成“外语”。通过这种创新的图像编码方式，LLM不仅具备了视觉理解能力，还能以自回归方式进行图像去噪和恢复，关键是不需要任何微调。我们进行了严格的实验证实了我们的方法，包括图像识别、图像字幕、视觉问题回答等理解任务，以及修复任务，如修复、扩展、去模糊和位移复原。

Mar, 2024

ViTextVQA：用于评估图像中越南文本理解的大规模视觉问答数据集

通过对OCR文本中令牌的处理和选择顺序的细致实验，我们发现这一发现显著提高了在ViTextVQA数据集上基准模型的性能。

Apr, 2024

重新审视多模态大型语言模型评估

本研究针对当前多模态大型语言模型（MLLM）评估中存在的数据集问题，如偏见和虚假关联，提出了一种新方法。我们首次使用改进的数据集评估多个MLLM，揭示了许多模型的潜在缺陷，并且我们的代码已整合于LAVIS框架中，便于今后模型的快速评估。

Aug, 2024