LAMM: 多模态指导语言调整数据集,框架和基准测试
本文提出 Contrastive Language-Image-Point Cloud Pretraining (CLIP2) 方法,通过建立二三维场景对齐的实例文本-图像-点云代理和交叉模态对比学习策略,直接学习可迁移的三维点云表示,并在室内和室外场景中实验验证了其在零样本和少样本三维识别任务中的显著性能提升。
Mar, 2023
我们引入了Point-Bind,这是一个将三维点云与二维图像、语言、音频和视频对齐的多模态模型。通过ImageBind的引导,我们构建了三维和多模态之间的联合嵌入空间,实现了许多有前景的应用,例如任意到三维生成、三维嵌入算术和三维开放世界理解。此外,我们还提出了Point-LLM,这是第一个遵循三维多模态指令的三维大型语言模型(LLM)。通过参数高效的微调技术,Point-LLM将Point-Bind的语义注入到预训练的LLM中,例如LLaMA,它不需要三维指令数据,但具有出色的三维和多模态问答能力。我们希望我们的工作可以为扩展三维点云到多模态应用的社区照亮一线。
Sep, 2023
通过ReForm-Eval基准测试,我们对LVLM的各种能力进行了全面的定量评估,发现并分析了现有LVLM的优点和缺点,并确定了潜在的影响因素。
Oct, 2023
本文介绍了一个名为MERLIM的多模式评估基准,用于评估IT-LVLM在基本计算机视觉任务中的表现,发现先进的IT-LVLM仍然有限于识别精细的视觉概念,对象幻觉在各种任务中普遍存在,而且结果受输入查询的细微变化的强烈偏见影响,即使查询具有相同的语义。研究结果还表明,这些模型在视觉基础上较弱,但仍然可以通过全局视觉模式或LLM组件中的文本偏见进行恰当的猜测。
Dec, 2023
通过研究评估作品,我们找出了两个主要问题:1)对于很多样本来说,视觉内容是不必要的;答案可以直接从问题和选项中推断出来,或者来自于LLM中的世界知识。2)在LLM和LVLM训练中存在意外的数据泄漏。为了解决这些问题,我们提出了MMStar,这是一个由人工精选的具有6个核心能力和18个详细方向的视觉不可或缺的多模态基准。我们在MMStar上评估了16个主要的LVLM,以评估它们的多模态能力,并通过提出的指标在7个基准上调查了它们的数据泄漏和实际多模态增益。
Mar, 2024
评估多模态大型语言模型(MLLMs)的性能,集成点云和语言,面临重大挑战。缺乏全面评估阻碍确定这些模型是否真正代表进步,从而妨碍该领域的进一步发展。我们引入了可扩展的3D基准测试和大规模指令调整数据集3DBench,提供了一个全面评估MLLMs的可扩展平台,以解决这些问题。该基准测试覆盖了从物体级到场景级的广泛空间和语义范围,涉及感知和规划任务,并且我们提出了一个严格的流程来自动生成可扩展的3D指令调整数据集,总共涵盖了10个多模态任务,共生成了超过23万个问答对。通过对热门MLLMs的彻底实验评估、与现有数据集的比较以及训练方案的变异,我们展示了3DBench的优越性,为当前的局限性和潜在研究方向提供了有价值的见解。
Apr, 2024
MiniGPT-3D是一种高效而强大的3D-LLM,仅经过27小时在一台RTX 3090上训练,在2D-LLMs的2D先验知识的帮助下,使用四阶段训练策略进行模态对齐,并采用高效聚合特征的混合查询专家模块,以及低参数的微调方法LoRA和Norm微调,在3D对象分类和字幕任务上实现了具有显著较低训练成本的SOTA结果。
May, 2024
通过扩展多模态大语言模型 (MLLMs) 的感知能力以在三维空间中对图像进行定位和推理,本研究引入了一个名为 Cube-LLM 的新 MLLM,并在 LV3D 数据集上进行预训练,实验表明 Cube-LLM 在整体 MLLM 和特定领域的基准测试中均表现出色,并取得了显著的成果。
May, 2024
该研究论文提出了一种名为LM4LV的框架,它能够使冻结的大型语言模型(LLM)解决一系列的低层次视觉任务,展示了LLM在低层次视觉中的强大潜力,并且架起了MLLM和低层次视觉任务之间的桥梁。
May, 2024
通过引入多图像关系基准(MIRB),我们评估了视觉语言模型(VLMs)在比较、分析和推理多个图像时的能力,并发现开源VLMs在单图像任务中接近GPT-4V的性能,但在多图像推理任务中存在显著的性能差距。我们的发现表明,即使是最先进的GPT-4V模型在我们的基准测试中也存在困难,强调了该领域进一步研究和开发的必要性。我们相信我们的MIRB可以作为开发下一代多模态模型的测试平台。
Jun, 2024