MMScan:多模态 3D 场景数据集与分层语义标注
我们构建了一个包含 75K 个指令 - 回答对的广泛数据集,针对 3D 场景进行了任务,如 3D VQA、3D grounding 和 3D conversation,并引入了一种名为 3DMIT 的新颖且高效的提示调优范例,通过将 3D 空间信息整合到 LLMs 中,使其更好地理解 3D 世界。
Jan, 2024
该研究论文通过大规模的三维多模态医学数据集 M3D-Data 和多模态大型语言模型 M3D-LaMed,在各种三维医学任务上实现了先进的医学图像分析方法,并提出了用于自动评估的新的三维多模态医学基准 M3D-Bench。
Mar, 2024
该研究介绍了目前最大的多语言多模态摘要数据集 (M3LS),该数据集由超过一百万个来自 BBC 的新闻文章组成,跨越 20 种语言,目标在于 5 个语言根上的多样性。研究者们利用该数据集定义了一项多语言多模态摘要任务,并在多语言环境下使用各种最先进的摘要技术报告了基准分数。
Feb, 2023
本文介绍了 ScanNet 数据集的构建,该数据集包含 2.5M 的视图和 1513 个场景,提供了 3D 摄像机姿势、表面重构和语义分割等信息,并表明使用此数据集可以在 3D 场景理解任务中实现最先进的性能。
Feb, 2017
本文介绍了一个用于增强现有的 3D 感知和 6D 物体姿态数据集的新注解和获取方法,通过机器人前向运动学、外部红外跟踪器和改进的校准和注解过程,提出了一个多模态传感器装置,据此创建了高精度的 3D 数据,有效克服了现有数据集的限制,并为 3D 视觉研究提供了宝贵的资源。
Aug, 2023
通过扩展多模态大语言模型 (MLLMs) 的感知能力以在三维空间中对图像进行定位和推理,本研究引入了一个名为 Cube-LLM 的新 MLLM,并在 LV3D 数据集上进行预训练,实验表明 Cube-LLM 在整体 MLLM 和特定领域的基准测试中均表现出色,并取得了显著的成果。
May, 2024
我们介绍了使用自然语言描述来定位现实世界 3D 场景中多个对象的任务。我们提出了 Multi3DRefer,扩展了 ScanRefer 数据集和任务,并引入了新的评估指标和基准方法以进一步研究多模态 3D 场景理解。此外,我们利用 CLIP 的 2D 特征和对比学习在线渲染对象提案,构建了更好的基准线,该基准线在 ScanRefer 基准测试上超越了最新技术。
Sep, 2023
通过引入多视图联合模态建模方法,该研究论文提出了一种名为 JM3D 的新方法,以解决 3D 表示学习中的信息降解和不足协同问题,并在零样本 3D 分类任务上取得了领先于现有方法的性能。
Aug, 2023
在本研究中,我们提出了基于 3D 大型多模型(3D LMM)的 Grounded 3D-LLM 模型,在一个统一生成框架中探索了 3D 场景理解的潜力,通过使用场景引用标记作为特殊名词短语来参考 3D 场景,将 3D 视觉任务转化为语言格式,从而实现了处理交替 3D 和文本数据序列的自然方法,并采用对应标签引导语句建立了大规模的基于含意场景的语言数据集,进一步引入了对比性语言场景预训练(CLASP)以有效利用这些数据,从而将 3D 视觉与语言模型相结合,通过在多个 3D 基准测试上进行全面评估,我们展示了 Grounded 3D-LLM 的领先性能和广泛适用性。
May, 2024
提出一种新颖的自监督点云表示学习方法 MM-Point,通过多模态交互和传输同时处理三维物体和多个二维视图之间的一致跨模态目标,以及通过多个 MLP 和多层次增强策略来更有效地实现二维多视图信息的一致性对比学习,进一步学习了二维多视图的多层次不变性。MM-Point 在各种下游任务中展现出最先进的性能,如在合成数据集 ModelNet40 上达到了 92.4% 的峰值准确率,在真实数据集 ScanObjectNN 上达到了 87.8% 的最高准确率,与全监督方法可媲美。此外,我们还展示了它在少样本分类、三维部分分割和三维语义分割等任务中的有效性。
Feb, 2024