多模态大型语言模型的视觉问题分解
本文提出了可伸缩的解决方案,涉及多语言视觉问答(mVQA)的数据生成和建模,最终在13种语言中展现出强大性能,同时也创造了MaXM(一个在7种不同语言下的纯测试数据集),从而使得mVQA不仅限于英语,而是扩展到其他语言中。
Sep, 2022
通过调查Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对VQA数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将VQA推广到多模态问答,探索与VQA相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023
使用大型语言模型和多模态语言模型,我们开发了一种方法将特定领域的视觉和视觉-语言数据集转化为统一的问答格式,从而扩展了多模态语言模型用于特定领域任务,实验结果表明该方法在特定领域的视觉任务和视觉-语言任务上达到了高分数指标并保持了多任务的性能。
Feb, 2024
近期,大型语言模型 (LLM) 的进展促进了多模态 LLM (MLLM) 的发展。虽然 MLLM 具有令人印象深刻的能力,但往往过于依赖单模态偏见(例如,语言偏见和视觉偏见),导致在复杂的多模态任务中回答错误。为了研究这个问题,我们提出了一个因果框架来解释视觉问答 (VQA) 问题中的偏见。在我们的框架中,我们设计了一个因果图来阐明 MLLMs 在 VQA 问题上的预测,并通过深入的因果分析评估偏见的因果效应。受到因果图的启发,我们引入了一个名为 MORE 的新数据集,包含了 12,000 个 VQA 实例。该数据集旨在挑战 MLLMs 的能力,需要进行多跳推理和克服单模态偏见。此外,我们提出了两种策略来减轻单模态偏见和增强 MLLMs 的推理能力,包括针对有限访问 MLLMs 的“分解-验证-回答” (DeVA) 框架以及通过微调改进开源 MLLMs。广泛的定量和定性实验为未来的研究提供了宝贵的见解。
Mar, 2024
在这份调研报告中,我们综述了当前高效多模态大语言模型(MLLMs)的研究状况,包括代表性的高效MLLM的时间线、高效结构和策略的研究现状以及应用领域。最后,我们讨论了目前高效MLLM研究的限制和有前途的未来方向。
May, 2024
我们研究了基于知识的视觉问答问题,通过将复杂问题替换为多个简单问题,从图像中提取更相关的信息来增强对图像的理解,并在三个著名的视觉问答数据集中实现了高达2%的准确率提升。
Jun, 2024
本研究解决了多模态大型语言模型在评估其多模态理解能力时的公平性和准确性问题。通过提出基于语义的评估方法,针对传统的视觉问答(VQA)评估的局限性,创建了评估VQA评估者的数据集(AVE),并设计了语义灵活的VQA评估者(SFVE),实验结果显示该评估方法明显优于现有的语义评估器。
Aug, 2024
本研究针对当前多模态大型语言模型(MLLM)评估中存在的数据集问题,如偏见和虚假关联,提出了一种新方法。我们首次使用改进的数据集评估多个MLLM,揭示了许多模型的潜在缺陷,并且我们的代码已整合于LAVIS框架中,便于今后模型的快速评估。
Aug, 2024
本研究针对多模态大语言模型(MLLMs)在多个应用领域(如视觉问答和理解推理)的评价标准进行全面回顾,填补了现有文献在基准和评估方面的空白。该论文汇总了180个基准,探讨了评价方法的局限性,并指出评估应视为支持MLLMs发展的关键学科。研究结果将为未来MLLMs的评估与发展提供重要借鉴。
Aug, 2024