图像和点云的语言基础的自底向上和自顶向下检测变压器
本篇论文提出了基于自由文本语言描述的三维物体定位方法,通过引入多个图模型来解决不同挑战。经过在挑战类数据集上的多次测试,结果表明我们所提出的算法优于现有最先进技术。
Mar, 2021
该研究提出了2D Semantics Assisted Training(SAT)来提高3D视觉定位的准确性,通过学习丰富,干净的2D对象表示与3D场景中的对象或提到的实体之间的对齐关系,辅助3D视觉定位,将2D语义有效地利用于训练,使方法在3D视觉定位数据集上的准确性从37.7%提高到49.2%,并且在多个3D视觉定位数据集上均优于同类方法。
May, 2021
提出了一种空间语言模型用于3D视觉定位问题,使用基于Transformer的架构将空间嵌入和DistilBert的语言嵌入结合起来进行目标对象预测,能够在ReferIt3D提出的数据集上表现出竞争性,可以被应用于机器人等领域的视觉任务中。
Jul, 2021
利用弱监督注释学习3D视觉定位模型,通过分析对象提案和句子之间的语义相似性,我们构建了一个语义匹配模型,将粗粒度的场景-句子对应关系用于学习目标-句子链接。同时,我们将粗精度的语义匹配知识融入经典的两阶段3D视觉定位模型,以减少推理成本并提高性能。通过在ScanRefer、Nr3D和Sr3D上进行广泛实验证明了我们提出方法的有效性。
Jul, 2023
通过语义定位3D场景中的物体是多媒体理解领域的一项基础且重要的任务,本研究提出了一种名为3D Dense Object Grounding (3D DOG)的新任务,通过更复杂的段落描述而不是单个句子来共同定位多个物体,提出了一种基于Stacked Transformer的新框架3DOGSFormer,通过上下文查询驱动的局部Transformer解码器生成初始定位提议,并利用提议驱动的全局Transformer解码器进一步优化初始定位提议,实验证明该方法在多个具有挑战性的基准上胜过现有的3D单个物体定位方法和它们的稠密对象变种。
Sep, 2023
通过引入密集三维视觉接地网络ConcreteNet,该文研究了在物理交互类应用中实现密集三维视觉接地的方法,包括引入底层注意融合模块、对潜在空间进行对比训练、以及解决视角依赖性表达的全局相机令牌,提高了富有挑战性的重复实例的接地性能,从而实现了在三维场景中进行的交互式物体定位。
Sep, 2023
通过系统性地将3D视觉语言学习在室内环境中进行有序提升,本研究旨在解决3D视觉语言面临的三个主要挑战,包括复杂的3D场景、缺乏数据支持和缺乏统一的学习框架,并通过引入包含约68K个3D室内场景的场景语料库SceneVerse以及基于可扩展的场景图生成方法获取的约2.5M个视觉语言对,展示了Grounded Pre-training for Scenes (GPS)的有效性,通过在所有现有的3D视觉定位基准上取得了最先进的性能,并在具有挑战性的3D视觉语言任务的零样本迁移实验中揭示了SceneVerse和GPS的巨大潜力。
Jan, 2024
DOrA是一个使用大型语言模型的3D视觉指向框架,通过引入有序锚定对象,更新视觉特征并定位目标对象,在低资源和全数据场景下表现出超越当前最先进框架的优越性,分别在1%数据和10%数据设置下将基准提高了9.3%和7.8%的准确率。
Mar, 2024
在本研究中,我们提出了基于3D大型多模型(3D LMM)的Grounded 3D-LLM模型,在一个统一生成框架中探索了3D场景理解的潜力,通过使用场景引用标记作为特殊名词短语来参考3D场景,将3D视觉任务转化为语言格式,从而实现了处理交替3D和文本数据序列的自然方法,并采用对应标签引导语句建立了大规模的基于含意场景的语言数据集,进一步引入了对比性语言场景预训练(CLASP)以有效利用这些数据,从而将3D视觉与语言模型相结合,通过在多个3D基准测试上进行全面评估,我们展示了Grounded 3D-LLM的领先性能和广泛适用性。
May, 2024
本研究解决了3D视觉定位中现有损失函数未能充分建模实例间空间关系及语言描述粒度结构的问题。提出的细粒度空间损失和语言跨度损失为3D视觉定位提供了新的监督信号,帮助网络学习更具上下文感知的实例和语言嵌入。结果显示,新的方法在ReferIt3D基准测试中展现了竞争力的性能。
Nov, 2024