3DBench：可扩展的 3D 基准测试和指令调优数据集

Apr, 2024

3DBench：可扩展的 3D 基准测试和指令调优数据集

3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset

Junjie Zhang, Tianci Hu, Xiaoshui Huang, Yongshun Gong, Dan Zeng

TL;DR评估多模态大型语言模型（MLLMs）的性能，集成点云和语言，面临重大挑战。缺乏全面评估阻碍确定这些模型是否真正代表进步，从而妨碍该领域的进一步发展。我们引入了可扩展的3D基准测试和大规模指令调整数据集3DBench，提供了一个全面评估MLLMs的可扩展平台，以解决这些问题。该基准测试覆盖了从物体级到场景级的广泛空间和语义范围，涉及感知和规划任务，并且我们提出了一个严格的流程来自动生成可扩展的3D指令调整数据集，总共涵盖了10个多模态任务，共生成了超过23万个问答对。通过对热门MLLMs的彻底实验评估、与现有数据集的比较以及训练方案的变异，我们展示了3DBench的优越性，为当前的局限性和潜在研究方向提供了有价值的见解。

Abstract

Evaluating the performance of multi-modal large language models (MLLMs), integrating both point cloud and language, presents significant challenges. The lack of a comprehensive assessment hampers determining whet

发现论文，激发创造

LAMM: 多模态指导语言调整数据集，框架和基准测试

这篇研究将大型语言模型（MLLM）扩展到处理点云，建立了LAMM数据集和基准，为MLLM建立了可扩展的框架以适用于额外的模态，任务和领域。

Jun, 2023

3D-LLM：将三维世界注入大型语言模型

我们提出了一种新的3D-LLMs，将3D世界引入大型语言模型，并利用3D point clouds进行各种3D相关任务，通过我们设计的提示机制收集了超过300k的3D语言数据，实验证明我们的模型在ScanQA上的表现超过了最先进的基准方法，并在3D字幕、任务组合和3D辅助对话方面优于2D VLMs。

Jul, 2023

M3DBench：利用多模态3D提示指导大型模型

我们引入了一个名为M3DBench的全面的3D指令跟随数据集，支持多模式指令与文本、图像、3D物体和其他视觉提示相互交错，统一了不同的3D任务，是一个大规模的3D指令跟随数据集，收集了超过320,000个指令响应对，并建立了一个评估大型模型在理解多模态3D提示方面性能的新基准。广泛的实验证明了我们数据集和基准模型的有效性，支持通用的3D中心任务，这将激发未来的研究。

Dec, 2023

3DMIT: 3D多模态指导调整用于场景理解

我们构建了一个包含75K个指令-回答对的广泛数据集，针对3D场景进行了任务，如3D VQA、3D grounding和3D conversation，并引入了一种名为3DMIT的新颖且高效的提示调优范例，通过将3D空间信息整合到LLMs中，使其更好地理解3D世界。

Jan, 2024

SceneVerse：面向基于场景的三维视觉语言学习的规模化

通过系统性地将3D视觉语言学习在室内环境中进行有序提升，本研究旨在解决3D视觉语言面临的三个主要挑战，包括复杂的3D场景、缺乏数据支持和缺乏统一的学习框架，并通过引入包含约68K个3D室内场景的场景语料库SceneVerse以及基于可扩展的场景图生成方法获取的约2.5M个视觉语言对，展示了Grounded Pre-training for Scenes (GPS)的有效性，通过在所有现有的3D视觉定位基准上取得了最先进的性能，并在具有挑战性的3D视觉语言任务的零样本迁移实验中揭示了SceneVerse和GPS的巨大潜力。

Jan, 2024

MileBench: 在长上下文中评测多语言大型语言模型

该研究旨在通过引入MileBench基准来系统评估多模态大型语言模型（MLLMs）在长上下文和多图像任务中的适应能力，并发现开源MLLMs在长上下文情境中面临着挑战，尤其在涉及多图像的情景下。

Apr, 2024

具备3D理解的语言-图像模型

通过扩展多模态大语言模型 (MLLMs) 的感知能力以在三维空间中对图像进行定位和推理，本研究引入了一个名为 Cube-LLM 的新 MLLM，并在 LV3D 数据集上进行预训练，实验表明 Cube-LLM 在整体 MLLM 和特定领域的基准测试中均表现出色，并取得了显著的成果。

May, 2024

LLMs跨入3D世界：多模态大语言模型对3D任务的调查与元分析

大型语言模型（LLMs）与三维空间数据（3D-LLMs）的整合不断进步，为理解和与物理空间互动提供了前所未有的能力。本文综述了使LLMs能够处理、理解和生成3D数据的方法，强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势，并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场（NeRFs）等各种3D数据表示，分析了它们与LLMs的整合在3D场景理解、字幕生成、问答和对话，以及基于LLMs的空间推理、规划和导航等任务中的应用，同时还对整合3D和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展，但也强调了利用3D-LLMs的全部潜力需要创新方法的必要性。因此，本文旨在为未来的研究规划一个探索和扩展3D-LLMs在理解和与复杂3D世界互动方面能力的道路。为了支持这项综述，我们建立了一个项目页面，其中整理和列出了与我们的主题相关的论文。

May, 2024

EmbSpatial-Bench：基于大型视觉-语言模型的空间理解能力基准评估

近期大型视觉-语言模型（LVLMs）的快速发展表明它们在具体任务中的潜力，然而，目前的LVLMs在具体环境中的空间理解能力尚未得到充分评估，这使得当前LVLMs与合格的具体智能之间存在未知差距。为此，我们构建了EmbSpatial-Bench，这是一个用于评估LVLMs具体空间理解能力的基准测试。该基准测试是从具体场景自动衍生而来的，涵盖了从个体视角出发的6种空间关系。实验证明了研究结果，即当前的LVLMs（甚至包括GPT-4V）的容量不足，我们进一步提出了EmbSpatial-SFT，这是一个旨在提高LVLMs具体空间理解能力的指导调优数据集。

Jun, 2024

MMScan：多模态3D场景数据集与分层语义标注

建立了首个最大的多模态三维场景数据集与基准，并通过层次语言注释进行了多模态三维感知研究，为领域相关问题提供了重要的资源。

Jun, 2024