MMT-Bench:一个综合评估大型视觉语言模型向多任务人工通用智能发展的多模态基准
本文介绍了一个 LVLM-eHub综合评估平台,使用6种多模态能力定量评估47个标准文本相关视觉基准,并利用在线平台提供用户级评估。结果显示,采用多轮推理评估框架可以缓解对象幻觉问题,为开发有效的LVLM评估流水线提供了启示。
Jun, 2023
提出了一种新的多模式基准测试方法MMBench,通过精心策划的数据集和结合CircularEval策略和ChatGPT的方法来对大视觉语言模型进行综合评估,旨在帮助研究社区更好地评估其模型以及鼓励未来的进步。
Jul, 2023
多模式大型语言模型在感知和解释任务中显示出巨大潜力,但其在预测推理方面的能力尚未得到充分探索。为填补这一空白,我们引入了一个新颖的基准测试,评估多模式大型语言模型在不同情境下的预测推理能力。我们的基准测试针对三个重要领域:抽象模式推理、人类活动预测和物理交互预测。我们进一步开发了三种由大型语言模型驱动的评估方法,以稳健地量化模型在基于多模态上下文的预测和推理未来方面的性能。经验实验证实了所提出的基准测试和评估方法的合理性,并通过严格测试揭示了当前流行的多模式大型语言模型在预测推理任务中的优缺点。最后,我们提出的基准测试为多模式大型语言模型提供了一个标准化的评估框架,并可以促进开发能够在复杂的长序列多模态输入上进行推理和预测的更先进的模型的发展。
Oct, 2023
通过研究评估作品,我们找出了两个主要问题:1)对于很多样本来说,视觉内容是不必要的;答案可以直接从问题和选项中推断出来,或者来自于LLM中的世界知识。2)在LLM和LVLM训练中存在意外的数据泄漏。为了解决这些问题,我们提出了MMStar,这是一个由人工精选的具有6个核心能力和18个详细方向的视觉不可或缺的多模态基准。我们在MMStar上评估了16个主要的LVLM,以评估它们的多模态能力,并通过提出的指标在7个基准上调查了它们的数据泄漏和实际多模态增益。
Mar, 2024
该研究旨在通过引入MileBench基准来系统评估多模态大型语言模型(MLLMs)在长上下文和多图像任务中的适应能力,并发现开源MLLMs在长上下文情境中面临着挑战,尤其在涉及多图像的情景下。
Apr, 2024
本研究解决了大型视觉语言模型(LVLMs)多图像处理能力评估不足的问题。提出的多模态多图像理解(MMIU)基准是一个全面的评估套件,涵盖了7种多图像关系、52个任务和77K图像,揭示了即使是最先进的模型在空间理解任务中仍面临显著挑战。这一基准有望推动LVLM研究和开发前沿的发展。
Aug, 2024
本研究针对现有多模态理解与生成评估不足的问题,提出了MMIE基准,涵盖20,000个精心策划的多模态查询,适用于大型视觉-语言模型的交错理解评估。通过引入新的自动评估指标,研究表明MMIE能有效促进多模态模型的发展,提高评估的准确性与可靠性。
Oct, 2024
本研究解决了多模态大语言模型(MLLMs)在实例级视觉语言问题上的局限性,提出了一种新的任务“多上下文视觉定位”。通过构建包含2K高质量标注样本的MC-Bench数据集,为评估MLLMs的能力提供了基准,研究发现现有MLLMs在多图场景下的表现显著低于人类,推动相关领域的进一步研究。
Oct, 2024
本文解决了大型视觉语言模型(LVLMs)评估中的人力成本高和灵活性不足的问题,提出了一个名为AutoBench-V的自动化评估框架。该框架能够根据特定模型能力生成评估任务,并展示了在评估七种流行LVLMs时的有效性和可靠性,揭示了模型在抽象理解和细节推理任务中的表现差异及其广泛的潜在应用。
Oct, 2024
本研究解决了大规模视觉语言模型(LVLMs)评估中的主要挑战,提出了一种名为AutoBench-V的自动化评估框架。该框架灵活高效地根据特定模型能力进行评估,实验显示其能够有效反映任务难度,并揭示了LVLMs在自动化基准测试中具备的重大潜力。
Oct, 2024