多任务领域自适应与三维物体的语言 grounding

Jul, 2024

多任务领域自适应与三维物体的语言 grounding

Multi-Task Domain Adaptation for Language Grounding with 3D Objects

Penglei Sun, Yaoxian Song, Xinglin Pan, Peijie Dong, Xiaofei Yang...

TL;DR利用培训有源代码的现成模型来捕捉特征，如视角选择或几何先验，改善性能是现有关于三维物体目标级语言基础的工作的主要关注点之一。然而，它们没有考虑到在跨领域中探索语言 - 视觉对齐的跨模态表示。为了解决这个问题，我们提出了一种名为三维对象领域适应的语言基础（DA4LG）的新方法。具体而言，DA4LG 由具有多任务学习的视觉适配器模块组成，通过全面的多模态特征表示实现视觉 - 语言对齐。实验结果表明，DA4LG 在视觉和非视觉语言描述方面具有竞争力的性能，不受观测完整性的影响。DA4LG 在单视图设置和多视图设置中均在语言基础基准 SNARE 中达到了 83.8％和 86.8％的准确率，达到了最先进的性能。仿真实验显示 DA4LG 相比现有方法具有良好的实用和泛化性能。

Abstract

The existing works on object-level language grounding with 3d objects mostly focus on improving performance by utilizing the off-the-shelf pre-trained models to capture features, such as viewpoint selection or ge

object-level language grounding 3d objects cross-modal representation domain adaptation for language grounding multi-task learning

发现论文，激发创造

基于语义引导的特征对齐的目标检测半监督域泛化

本文通过探索视觉语言预训练和通过语言空间强制特征对齐，首次解决了半监督领域泛化问题。我们提出了一种新颖的跨域描述多尺度学习（CDDMSL）方法，在嵌入空间中最大化了具有不同领域特性的图像描述之间的一致性。CDDMSL 在领域泛化和域自适应设置中显著优于现有方法，分别实现了 11.7% 和 7.5% 的改进。全面的分析和消融研究确认了我们方法的有效性，将 CDDMSL 定位为物体检测任务中领域泛化的有希望的方法。

Sep, 2023

语言引导扩散模型用于视觉定位

通过去噪扩散建模的语言引导扩散框架（LG-DVG）提出了一种逐步推理的视觉定位方法，可持续改进查询 - 区域匹配，在跨模态对齐任务中以生成方式解决视觉定位，并在多个数据集上验证其超凡性能。

Aug, 2023

Mono3DVG: 单目图像中的三维视觉定位

我们介绍了一项新的任务，使用带有外观和几何信息的语言描述在单目 RGB 图像中进行 3D 可视定位。具体而言，我们构建了一个大规模数据集 Mono3DRefer，其中包含具有对应的几何文本描述的 3D 目标，由 ChatGPT 生成并手动改进。为了促进此任务，我们提出了 Mono3DVG-TR，一种利用文本嵌入中的外观和几何信息进行多模态学习和 3D 目标定位的端到端变压器网络。深度预测器旨在明确学习几何特征。提出了双文本引导适配器，用于改进所参考对象的多尺度视觉和几何特征。基于深度 - 文本 - 视觉堆叠注意力，解码器融合了物体级几何线索和视觉外观成为可学习的查询。Mono3DVG 提供了全面的基准测试和一些有见地的分析。广泛的比较和消融研究结果表明我们的方法明显优于所有基线方法。该数据集和代码将在以下链接公开发布：this https URL。

Dec, 2023

DASGIL: 面向语义和几何感知的基于图像的领域自适应定位

本文提出一种基于多任务架构的视觉定位方法，通过将几何和语义信息融合到多尺度的嵌入表示中，使用有效的多尺度特征鉴别器进行对抗性训练，从虚拟数据集到现实世界数据集的领域适应，以实现图像检索定位及大规模地点识别。该方法在 Extended CMU-Seasons 数据集和 Oxford RobotCar 数据集上进行验证，结果表明本方法在具有挑战性的环境下的检索定位和大规模地点识别的表现优于现有方法。

Oct, 2020

三维视觉对接的多视图 Transformer

这篇论文提出了一种基于多视角变换器（MVT）的方法，将 3D 场景投影到多视角空间中，学习一种更为稳健的多模态表示形式，从而消除特定视角的依赖，并在实验中表现出比现有方法更好的性能。

Apr, 2022

自主驾驶点云中基于语言的 3D 物体检测

本文提出了一种新的多模态视觉定位任务，称为 LiDAR Grounding，并通过设计一种名为 MSSG 的多模态单次定位方法来实现，通过跨模态学习来提高定位精度和效率。

May, 2023

Multi3DRefer: 文本描述与多个 3D 对象的关联

我们介绍了使用自然语言描述来定位现实世界 3D 场景中多个对象的任务。我们提出了 Multi3DRefer，扩展了 ScanRefer 数据集和任务，并引入了新的评估指标和基准方法以进一步研究多模态 3D 场景理解。此外，我们利用 CLIP 的 2D 特征和对比学习在线渲染对象提案，构建了更好的基准线，该基准线在 ScanRefer 基准测试上超越了最新技术。

Sep, 2023

3D-GRAND: 为 3D-LLMs 提供更好的定位和更少的幻觉

通过引入具有 40,087 个家庭场景和 6.2 百万个密集绑定的场景语言指令的 3D-GRAND，本文展示了对 3D-LLMs 中的指令调优在地面设置和降低幻觉方面的显著增强。另外，该文还提出了一个全面的基准测试 3D-POPE，以系统地评估 3D-LLMs 中的幻觉，并促进未来模型之间的公正比较。我们的实验强调了数据集规模和 3D-LLM 性能之间的扩展效应，强调了大规模 3D 文本数据集在推进具身化 AI 研究中的关键作用。值得注意的是，我们的结果证明了有效的从模拟到真实的转化存在早期信号，表明在大规模合成数据上训练的模型在真实世界的 3D 扫描中表现良好。通过 3D-GRAND 和 3D-POPE，我们的目标是为具身化 AI 社区提供必要的资源和见解，从而为更可靠和更好地基于地面的 3D-LLMs 做好准备。

Jun, 2024

3D 场景中的密集物体定位

通过语义定位 3D 场景中的物体是多媒体理解领域的一项基础且重要的任务，本研究提出了一种名为 3D Dense Object Grounding (3D DOG) 的新任务，通过更复杂的段落描述而不是单个句子来共同定位多个物体，提出了一种基于 Stacked Transformer 的新框架 3DOGSFormer，通过上下文查询驱动的局部 Transformer 解码器生成初始定位提议，并利用提议驱动的全局 Transformer 解码器进一步优化初始定位提议，实验证明该方法在多个具有挑战性的基准上胜过现有的 3D 单个物体定位方法和它们的稠密对象变种。

Sep, 2023

多粒度语言指导的多目标追踪

通过结合多模态的语言驱动特征和视觉特征，在多目标跟踪中提出了一种新的 LG-MOT 框架，它在不同层次上（场景和实例级）明确利用语言信息并且与标准视觉特征结合以获得判别性表示。通过在现有的 MOT 数据集中注释场景和实例级的语言描述，将语言信息编码到高维度嵌入中，并在训练过程中用于引导视觉特征。在三个基准测试集 MOT17、DanceTrack 和 SportsMOT 上进行了广泛实验，结果显示提出的方法在性能上达到了最先进水平，并在舞蹈跟踪测试集上相对于仅使用视觉特征的基线方法具有绝对增益 2.2％。此外，所提出的 LG-MOT 表现出良好的跨领域泛化能力。

Jun, 2024