利用 GPT 和原型指导的多视角知识获取用于 3D 视觉定位
这篇论文提出了一种基于多视角变换器(MVT)的方法,将 3D 场景投影到多视角空间中,学习一种更为稳健的多模态表示形式,从而消除特定视角的依赖,并在实验中表现出比现有方法更好的性能。
Apr, 2022
我们介绍了使用自然语言描述来定位现实世界 3D 场景中多个对象的任务。我们提出了 Multi3DRefer,扩展了 ScanRefer 数据集和任务,并引入了新的评估指标和基准方法以进一步研究多模态 3D 场景理解。此外,我们利用 CLIP 的 2D 特征和对比学习在线渲染对象提案,构建了更好的基准线,该基准线在 ScanRefer 基准测试上超越了最新技术。
Sep, 2023
我们介绍了一项新的任务,使用带有外观和几何信息的语言描述在单目 RGB 图像中进行 3D 可视定位。具体而言,我们构建了一个大规模数据集 Mono3DRefer,其中包含具有对应的几何文本描述的 3D 目标,由 ChatGPT 生成并手动改进。为了促进此任务,我们提出了 Mono3DVG-TR,一种利用文本嵌入中的外观和几何信息进行多模态学习和 3D 目标定位的端到端变压器网络。深度预测器旨在明确学习几何特征。提出了双文本引导适配器,用于改进所参考对象的多尺度视觉和几何特征。基于深度 - 文本 - 视觉堆叠注意力,解码器融合了物体级几何线索和视觉外观成为可学习的查询。Mono3DVG 提供了全面的基准测试和一些有见地的分析。广泛的比较和消融研究结果表明我们的方法明显优于所有基线方法。该数据集和代码将在以下链接公开发布:this https URL。
Dec, 2023
本文提出了一种名为 InstanceRefer 的模型,该模型利用语言描述实现目标类别预测,从 3D 点云的广义实例分割中筛选出少量实例候选项,利用多级语境推理和多层次特征匹配来实现最相关候选项的选择和定位,从而实现了优越的 3D 视觉定位结果
Mar, 2021
提出了一种空间语言模型用于 3D 视觉定位问题,使用基于 Transformer 的架构将空间嵌入和 DistilBert 的语言嵌入结合起来进行目标对象预测,能够在 ReferIt3D 提出的数据集上表现出竞争性,可以被应用于机器人等领域的视觉任务中。
Jul, 2021
在本研究中,我们提出了基于 3D 大型多模型(3D LMM)的 Grounded 3D-LLM 模型,在一个统一生成框架中探索了 3D 场景理解的潜力,通过使用场景引用标记作为特殊名词短语来参考 3D 场景,将 3D 视觉任务转化为语言格式,从而实现了处理交替 3D 和文本数据序列的自然方法,并采用对应标签引导语句建立了大规模的基于含意场景的语言数据集,进一步引入了对比性语言场景预训练(CLASP)以有效利用这些数据,从而将 3D 视觉与语言模型相结合,通过在多个 3D 基准测试上进行全面评估,我们展示了 Grounded 3D-LLM 的领先性能和广泛适用性。
May, 2024
本研究提出了一种基于自然语言描述和多模式视觉数据的大规模动态场景的 3D 视觉定位任务的方法,并且通过利用图像的外观特征、点云中的位置和几何特征以及连续输入帧中的动态特征,匹配语言中的语义特征。我们提出了两个新的数据集,STRefer 和 LifeRefer,这些数据集对于野外 3D 视觉定位的研究具有重要意义,并且有着提升自动驾驶和服务机器人发展的巨大潜力。广泛的比较和消融研究证明,我们的方法在两个提出的数据集上实现了最先进的性能。
Apr, 2023
设计一种可解释的 3D 视觉定位框架,通过预测一系列锚点和最终目标,将 3D 视觉定位问题形式化为序列到序列任务,将指称任务分解为可解释的中间步骤,从而提高性能并极大地提高数据效率。
Oct, 2023
Text-to-3D 生成已经取得了显著的进展,但当需要在指定视点自定义特定外观时,仅仅依靠整体描述来生成 3D 对象时会出现挑战。在这个工作中,我们提出了 DreamView,一种文本到图像的方法,通过协作的文本指导注入模块灵活地注入视点特定和整体文本指导,从而实现多视图自定义同时保持整体一致性,在每个视图中平衡分离的内容操作和整体对象的全局一致性,从而实现自定义和一致性的双重成就。因此,DreamView 使艺术家能够创造性地设计 3D 对象,促进更具创新性和多样性的 3D 资产的创作。
Apr, 2024
本文提出一种用于单视角 RGBD 图像的三维视觉定位的新方法,该方法采用从底层融合语言和视觉特征生成热图的方式来粗略定位相关区域,然后通过自适应特征学习和对象级匹配,并结合另一种视觉语言融合来最终定位被引用的对象。该方法在 ScanRefer 数据集和 SUNRefer 数据集上的实验证明,与现有方法相比,在两个数据集上均取得了较大的 [email protected] 提升(分别提升 11.2% 和 15.6%)。
Mar, 2021