大型语言模型为文本丰富的VQA带来的优势
本研究提出了一种基于机器阅读理解的方法,通过将视觉和文本特征统一到自然语言中以解决视觉问答中的多模态特征融合问题,并能够处理大规模外部知识库等基于知识的问题。实验结果表明,该方法在三个数据集上性能具有可比性,此为利用文本和自然语言处理技术解决视觉问答问题的一步。
Nov, 2018
本文提出了一种端到端的结构化多模态关注神经网络,通过使用图形表示和多模态图形注意网络设计来处理TextVQA中的可视文本问答问题,并通过全局-本地注意回答模块生成答案,其中使用了OCR和通用词汇识别技术。实验证明该模型在TextVQA数据集和ST-VQA数据集等两个任务中超过了SoTA模型。
Jun, 2020
通过在语言模型中添加视觉理解能力,BLIVA能够显著提高处理富含文本的视觉问答任务的性能,并在典型的视觉问答基准上取得了较高的准确率。
Aug, 2023
通过结合预训练大型语言模型和其他基础模型,本研究探索了一种无需进一步训练即可解决视觉问答问题的方法,并对不同的解码策略在VQAv2数据集上进行了性能评估。
Sep, 2023
使用大型语言模型和多模态语言模型,我们开发了一种方法将特定领域的视觉和视觉-语言数据集转化为统一的问答格式,从而扩展了多模态语言模型用于特定领域任务,实验结果表明该方法在特定领域的视觉任务和视觉-语言任务上达到了高分数指标并保持了多任务的性能。
Feb, 2024
我们研究了大型语言模型(LLM)在没有对多模态数据集进行微调的情况下,直接理解视觉信号的潜力。我们提出了一种视觉到语言的分词器(V2T Tokenizer),通过编码器-解码器、LLM词汇表和CLIP模型将图像转换成“外语”。通过这种创新的图像编码方式,LLM不仅具备了视觉理解能力,还能以自回归方式进行图像去噪和恢复,关键是不需要任何微调。我们进行了严格的实验证实了我们的方法,包括图像识别、图像字幕、视觉问题回答等理解任务,以及修复任务,如修复、扩展、去模糊和位移复原。
Mar, 2024
通过对OCR文本中令牌的处理和选择顺序的细致实验,我们发现这一发现显著提高了在ViTextVQA数据集上基准模型的性能。
Apr, 2024
本研究针对当前多模态大型语言模型(MLLM)评估中存在的数据集问题,如偏见和虚假关联,提出了一种新方法。我们首次使用改进的数据集评估多个MLLM,揭示了许多模型的潜在缺陷,并且我们的代码已整合于LAVIS框架中,便于今后模型的快速评估。
Aug, 2024