M3D:利用多模态大型语言模型推进 3D 医学图像分析
通过结合现有的 3D 图像编码器和 2D MLLMs,并通过设计的 Plane-Slice-Aware Transformer(PSAT)模块,提出了一种名为 Med3DInsight 的新颖预训练框架,用于增强对 3D 医学图像的理解。实验证明,在两个下游分割和分类任务中,包括使用 CT 和 MRI 模式的三个公共数据集以及与十多个基准模型的比较中,Med3DInsight 取得了最先进的性能,并且可以轻松集成到任何当前的 3D 医学图像理解网络中,显著提高其性能。
Mar, 2024
我们引入了一个名为 M3DBench 的全面的 3D 指令跟随数据集,支持多模式指令与文本、图像、3D 物体和其他视觉提示相互交错,统一了不同的 3D 任务,是一个大规模的 3D 指令跟随数据集,收集了超过 320,000 个指令响应对,并建立了一个评估大型模型在理解多模态 3D 提示方面性能的新基准。广泛的实验证明了我们数据集和基准模型的有效性,支持通用的 3D 中心任务,这将激发未来的研究。
Dec, 2023
通过扩展多模态大语言模型 (MLLMs) 的感知能力以在三维空间中对图像进行定位和推理,本研究引入了一个名为 Cube-LLM 的新 MLLM,并在 LV3D 数据集上进行预训练,实验表明 Cube-LLM 在整体 MLLM 和特定领域的基准测试中均表现出色,并取得了显著的成果。
May, 2024
我们构建了一个包含 75K 个指令 - 回答对的广泛数据集,针对 3D 场景进行了任务,如 3D VQA、3D grounding 和 3D conversation,并引入了一种名为 3DMIT 的新颖且高效的提示调优范例,通过将 3D 空间信息整合到 LLMs 中,使其更好地理解 3D 世界。
Jan, 2024
本研究为培训深度学习算法所需数据量的问题提出了一种解决方案,通过建立医学图像分割数据集和使用 Med3D 进行多域协同训练,可以加速涉及 3D 医学图像的任务的训练收敛速度和提高准确度。
Apr, 2019
这篇论文讨论了我们在 MEDIQA2024 多语言和多模式医学回答生成(M3G)共享任务中的提交情况,报告了在任务的英语类别下两个独立解决方案的结果,第一个解决方案涉及对 Claude 3 Opus API 进行两次连续的 API 调用,第二个解决方案涉及使用 CLIP 进行图像分类的图像疾病标签联合嵌入训练。这两个解决方案在比赛排行榜上分别获得第一和第二名,大大超过了其他解决方案。此外,我们讨论了来自后期竞赛实验的见解。尽管由于共享任务的难度和医学视觉问答的挑战性质,这两个解决方案的性能有很大的提升空间,但我们认为多阶段 LLM 方法和 CLIP 图像分类方法有进一步研究的潜力。
Apr, 2024
大型语言模型(LLMs)与三维空间数据(3D-LLMs)的整合不断进步,为理解和与物理空间互动提供了前所未有的能力。本文综述了使 LLMs 能够处理、理解和生成 3D 数据的方法,强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势,并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场(NeRFs)等各种 3D 数据表示,分析了它们与 LLMs 的整合在 3D 场景理解、字幕生成、问答和对话,以及基于 LLMs 的空间推理、规划和导航等任务中的应用,同时还对整合 3D 和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展,但也强调了利用 3D-LLMs 的全部潜力需要创新方法的必要性。因此,本文旨在为未来的研究规划一个探索和扩展 3D-LLMs 在理解和与复杂 3D 世界互动方面能力的道路。为了支持这项综述,我们建立了一个项目页面,其中整理和列出了与我们的主题相关的论文。
May, 2024
评估多模态大型语言模型(MLLMs)的性能,集成点云和语言,面临重大挑战。缺乏全面评估阻碍确定这些模型是否真正代表进步,从而妨碍该领域的进一步发展。我们引入了可扩展的 3D 基准测试和大规模指令调整数据集 3DBench,提供了一个全面评估 MLLMs 的可扩展平台,以解决这些问题。该基准测试覆盖了从物体级到场景级的广泛空间和语义范围,涉及感知和规划任务,并且我们提出了一个严格的流程来自动生成可扩展的 3D 指令调整数据集,总共涵盖了 10 个多模态任务,共生成了超过 23 万个问答对。通过对热门 MLLMs 的彻底实验评估、与现有数据集的比较以及训练方案的变异,我们展示了 3DBench 的优越性,为当前的局限性和潜在研究方向提供了有价值的见解。
Apr, 2024
为了解决 3D 数据与 2D 图像和文本的对齐问题带来的信息退化、协同不足和细节利用不充分的挑战,本文介绍了一种综合点云、文本和图像的综合方法 JM3D,其关键贡献是结构化多模态组织器和联合多模态对齐,通过高效的微调将 3D 表示与大型语言模型相结合,JM3D-LLM 在 ModelNet40 和 ScanObjectNN 的评估中表现出优势,进一步证明了我们的表示转换方法的有效性。
Oct, 2023
在本文中,我们介绍了 MID-M 这一创新框架,利用通用领域的大规模语言模型(LLM)的上下文学习能力,通过图像描述来处理多模态数据,其在性能上与任务特定的精调 LLMs 和其他通用领域的 LLMs 相当或更为出色,无需广泛域特定训练或多模态数据的预训练,参数更少,突出了利用通用领域 LLMs 进行领域特定任务的潜力,并为传统 LMM 发展提供了可持续和经济高效的替代方案。此外,MID-M 对于数据质量问题的稳健性证明了其在实际医学领域应用中的实用性。
Apr, 2024