通过基于提示的定位在统一框架中重新思考三维密集字幕和视觉对齐

Apr, 2024

通过基于提示的定位在统一框架中重新思考三维密集字幕和视觉对齐

Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization

Yongdong Luo, Haojia Lin, Xiawu Zheng, Yigeng Jiang, Fei Chao...

TL;DR3DGCTR 是一个统一的框架，通过重新考虑 3DVG 模型的基于提示的定位能力，将轻量级字幕头集成到现有的 3DVG 网络中，通过提取提示中的定位信息，有效地提升了 3DDC 的能力，实现了同时进行多任务训练，互相增强性能。

Abstract

3d visual grounding (3DVG) and 3d dense captioning (3DDC) are two crucial tasks in various 3D applications, which require both shared and complementary information in localization and visual-language relationship

3d visual grounding 3d dense captioning unified framework prompt-based localization multi-task training

发现论文，激发创造

提升密集三维视觉对接的三种方法

通过引入密集三维视觉接地网络 ConcreteNet，该文研究了在物理交互类应用中实现密集三维视觉接地的方法，包括引入底层注意融合模块、对潜在空间进行对比训练、以及解决视角依赖性表达的全局相机令牌，提高了富有挑战性的重复实例的接地性能，从而实现了在三维场景中进行的交互式物体定位。

Sep, 2023

Mono3DVG: 单目图像中的三维视觉定位

我们介绍了一项新的任务，使用带有外观和几何信息的语言描述在单目 RGB 图像中进行 3D 可视定位。具体而言，我们构建了一个大规模数据集 Mono3DRefer，其中包含具有对应的几何文本描述的 3D 目标，由 ChatGPT 生成并手动改进。为了促进此任务，我们提出了 Mono3DVG-TR，一种利用文本嵌入中的外观和几何信息进行多模态学习和 3D 目标定位的端到端变压器网络。深度预测器旨在明确学习几何特征。提出了双文本引导适配器，用于改进所参考对象的多尺度视觉和几何特征。基于深度 - 文本 - 视觉堆叠注意力，解码器融合了物体级几何线索和视觉外观成为可学习的查询。Mono3DVG 提供了全面的基准测试和一些有见地的分析。广泛的比较和消融研究结果表明我们的方法明显优于所有基线方法。该数据集和代码将在以下链接公开发布：this https URL。

Dec, 2023

Vote2Cap-DETR++：解耦定位与描述的端到端三维稠密字幕

通过并行解码，Vote2Cap-DETR 提出了一种将对象定位和描述生成解耦的简单而有效的变压器框架，以及引入了迭代空间精细化策略和额外的空间信息来提高定位性能和准确描述，实验证明其优于常规的 “检测然后描述” 的方法。

Sep, 2023

3D 密集字幕的全面调查：定位和描述 3D 场景中的物体

3D 密集的图像描述是一个新兴的视觉 - 语言桥接任务，旨在为 3D 场景生成多个详细准确的描述。本文提供了一份综合性的 3D 密集图像描述综述，涵盖了任务定义、架构分类、数据集分析、评估指标和深入的繁荣讨论。通过综合以前的文献，我们提炼了一个作为现有方法共同范例的标准流程，并提出了一种清晰的现有模型分类方法，并总结了不同模块中涉及的技术，并进行了详细的实验分析。同时，我们也提出了一系列有前景的 3D 密集图像描述的未来方向，并将其与相关任务的发展相结合，为这一领域的未来研究提供有价值的见解和启发。我们的目标是提供对 3D 密集图像描述的全面理解，促进进一步的研究，并在多媒体和相关领域的新应用的发展中做出贡献。

Mar, 2024

零字参数开放词汇三维视觉定位的可视化编程

通过使用大型语言模型，我们提出了一种零样本开放词汇的三维视觉定位方法，使用独特的基于对话的方法和视觉程序模块，以及创新的语言 - 物体关联模块，在三维场景中实现了复杂推理，并扩展了现有三维物体检测器的应用范围，取得了显著的性能优势。

Nov, 2023

3D 场景中的密集物体定位

通过语义定位 3D 场景中的物体是多媒体理解领域的一项基础且重要的任务，本研究提出了一种名为 3D Dense Object Grounding (3D DOG) 的新任务，通过更复杂的段落描述而不是单个句子来共同定位多个物体，提出了一种基于 Stacked Transformer 的新框架 3DOGSFormer，通过上下文查询驱动的局部 Transformer 解码器生成初始定位提议，并利用提议驱动的全局 Transformer 解码器进一步优化初始定位提议，实验证明该方法在多个具有挑战性的基准上胜过现有的 3D 单个物体定位方法和它们的稠密对象变种。

Sep, 2023

高效二维时间视频定位的文本 - 视觉指示

本文研究了时空视频定位（TVG）的问题，提出了一种新的文本 - 视觉提示框架（TVP）来优化视频编码器和语言编码器，有效地加强交叉模态特征融合并提高了 TVG 的表现。

Mar, 2023

联合推断与视觉上下文下的密集字幕

本研究提出了一种基于 “联合推理” 和 “上下文融合” 的模型管道来解决密集字幕的两个关键挑战，并在 Visual Genome 上取得了目前最佳算法的相对增益 73％的最新成果。

Nov, 2016

上下文与属性基础的密集字幕

本文提出了一种基于上下文推理和多级属性的视觉挖掘及区域描述生成的密集字幕框架，并利用层次化语义属性提供辅助监督，实验结果表明该模型优于现有最先进的方法。

Apr, 2019

Cross3DVG: 不同 RGB-D 扫描的跨数据集三维视觉定位基线和数据集

该研究提出了一种新的跨数据集三维视觉定位任务 Cross3DVG，创造了一个大规模的包含 63k 个三维对象多样描述的人工注释数据集，研究表明当前三维视觉定位的跨数据集泛化有很大的提升空间，结合 CLIP 的方法可以提高性能。

May, 2023