LAMM: 多模态指导语言调整数据集,框架和基准测试
评估多模态大型语言模型(MLLMs)的性能,集成点云和语言,面临重大挑战。缺乏全面评估阻碍确定这些模型是否真正代表进步,从而妨碍该领域的进一步发展。我们引入了可扩展的 3D 基准测试和大规模指令调整数据集 3DBench,提供了一个全面评估 MLLMs 的可扩展平台,以解决这些问题。该基准测试覆盖了从物体级到场景级的广泛空间和语义范围,涉及感知和规划任务,并且我们提出了一个严格的流程来自动生成可扩展的 3D 指令调整数据集,总共涵盖了 10 个多模态任务,共生成了超过 23 万个问答对。通过对热门 MLLMs 的彻底实验评估、与现有数据集的比较以及训练方案的变异,我们展示了 3DBench 的优越性,为当前的局限性和潜在研究方向提供了有价值的见解。
Apr, 2024
我们引入了一个名为 M3DBench 的全面的 3D 指令跟随数据集,支持多模式指令与文本、图像、3D 物体和其他视觉提示相互交错,统一了不同的 3D 任务,是一个大规模的 3D 指令跟随数据集,收集了超过 320,000 个指令响应对,并建立了一个评估大型模型在理解多模态 3D 提示方面性能的新基准。广泛的实验证明了我们数据集和基准模型的有效性,支持通用的 3D 中心任务,这将激发未来的研究。
Dec, 2023
我们构建了一个包含 75K 个指令 - 回答对的广泛数据集,针对 3D 场景进行了任务,如 3D VQA、3D grounding 和 3D conversation,并引入了一种名为 3DMIT 的新颖且高效的提示调优范例,通过将 3D 空间信息整合到 LLMs 中,使其更好地理解 3D 世界。
Jan, 2024
通过引入一种新的基准测试,MLLMs 作为评判者,本研究揭示了 MLLMs 在评估任务中的能力,并发现 MLLMs 在对人员喜好的评估和排名任务中存在显著差异,同时面临着多样的偏见、幻觉反应和不一致问题,强调了对 MLLMs 进一步改进和研究的迫切需求。
Feb, 2024
本文介绍了一个名为 MERLIM 的多模式评估基准,用于评估 IT-LVLM 在基本计算机视觉任务中的表现,发现先进的 IT-LVLM 仍然有限于识别精细的视觉概念,对象幻觉在各种任务中普遍存在,而且结果受输入查询的细微变化的强烈偏见影响,即使查询具有相同的语义。研究结果还表明,这些模型在视觉基础上较弱,但仍然可以通过全局视觉模式或 LLM 组件中的文本偏见进行恰当的猜测。
Dec, 2023
该研究论文通过大规模的三维多模态医学数据集 M3D-Data 和多模态大型语言模型 M3D-LaMed,在各种三维医学任务上实现了先进的医学图像分析方法,并提出了用于自动评估的新的三维多模态医学基准 M3D-Bench。
Mar, 2024
我们提出了 SEED-Bench-2,这是一个综合评估多模态大型语言模型能力的基准测试,并通过对 23 个主要开源多模态大型语言模型的性能评估,揭示了现有模型的局限性。
Nov, 2023
该研究分析了不同的多模态指导调优方法,并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能,揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解,但当前方法存在局限性,未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题,这些发现阐明了适应图像理解的语言模型的现有方法学限制,并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。
Oct, 2023
LL3DA 是一种大型语言 3D 助手,可以直接接收点云输入,并对文本指令和视觉提示进行回应,可以帮助大型多模态模型更好地理解人类互动,并在杂乱的 3D 场景中消除歧义。实验证明,LL3DA 在 3D 密集字幕和 3D 问答方面取得了显著成果,并超越了各种 3D 视觉语言模型。
Nov, 2023