三维视觉对接的多视图 Transformer
我们介绍了一项新的任务,使用带有外观和几何信息的语言描述在单目 RGB 图像中进行 3D 可视定位。具体而言,我们构建了一个大规模数据集 Mono3DRefer,其中包含具有对应的几何文本描述的 3D 目标,由 ChatGPT 生成并手动改进。为了促进此任务,我们提出了 Mono3DVG-TR,一种利用文本嵌入中的外观和几何信息进行多模态学习和 3D 目标定位的端到端变压器网络。深度预测器旨在明确学习几何特征。提出了双文本引导适配器,用于改进所参考对象的多尺度视觉和几何特征。基于深度 - 文本 - 视觉堆叠注意力,解码器融合了物体级几何线索和视觉外观成为可学习的查询。Mono3DVG 提供了全面的基准测试和一些有见地的分析。广泛的比较和消融研究结果表明我们的方法明显优于所有基线方法。该数据集和代码将在以下链接公开发布:this https URL。
Dec, 2023
ViewRefer 是一个用于 3D 视觉定位的多视角框架,可以在文本和 3D 两种模态下获取视觉知识,提出了一种可学习的多视角原型来记忆不同视角下的场景通用知识,同时还利用视角引导的注意力模块以及最终预测中的视角引导评分策略,实现了对三个基准测试的表现优于现有技术,并且超过了第二名的 + 2.8%、+1.2%和 + 0.73%。
Mar, 2023
本研究提出了一种名为 MVTN 的多视图转换网络,利用可微分渲染确定最佳视点进行三维形状识别,将其集成到新颖的自适应多视图流程中,在几个基准测验中表现出 3D 分类和形状检索的最先进性能,并展示了相对于其他方法更好的遮挡鲁棒性,并探讨了 MVTN 的其他方面,如二维预训练和其用于分割,同时公开了使用多视图投影进行 3D 理解和生成的 PyTorch 库 MVTorch。
Dec, 2022
我们介绍了使用自然语言描述来定位现实世界 3D 场景中多个对象的任务。我们提出了 Multi3DRefer,扩展了 ScanRefer 数据集和任务,并引入了新的评估指标和基准方法以进一步研究多模态 3D 场景理解。此外,我们利用 CLIP 的 2D 特征和对比学习在线渲染对象提案,构建了更好的基准线,该基准线在 ScanRefer 基准测试上超越了最新技术。
Sep, 2023
本文介绍了一种基于多角度变换的深度学习网络架构,通过改变视角,以使得机器在 3D 形状识别任务中取得更好的性能。该网络框架在静态视角方法的基础上,实现了自适应动态视角模式,将深度学习与可微渲染技术相结合,并在三个公开数据集上取得了较高的识别精度。
Nov, 2020
本文介绍了一种称为 MVSTR 的网络,利用 Transformer 提取拥有全局上下文和三维一致性的密集特征,对于 Multi-View Stereo(MVS)可靠的匹配至关重要。该网络解决了现有基于 CNN 的 MVS 方法视野有限的问题,提出了全局上下文 Transformer 模块和 3D-geometry Transformer 模块,并在实验中获得了最佳性能。
Dec, 2021
本文提出了一种基于 Transformer 的视觉定位框架 TransVG,通过建立多模态对应关系,实现使用简单 Transformer 编码器层替代复杂的融合模块,在五个广泛使用的数据集上取得了一系列最先进的记录并构建了基于 Transformer 的视觉定位框架基准。
Apr, 2021
该论文提出了一种基于 Transformer 编码器 - 解码器的视觉 grounding 方法,通过在不损伤位置定位能力的前提下,在文本描述的指导下学习语义鉴别的视觉特征,具有强大的文本 - 视觉语境语义捕捉能力。实验结果表明,在保持快速推理速度的同时,该方法在五个基准上优于现有的提案 - free 方法。
May, 2021
本篇论文提出了基于自由文本语言描述的三维物体定位方法,通过引入多个图模型来解决不同挑战。经过在挑战类数据集上的多次测试,结果表明我们所提出的算法优于现有最先进技术。
Mar, 2021
提出了 3D-VisTA,一个用于 3D 视觉和文本对齐的预训练 Transformer 模型,可轻松适应各种下游任务,通过在 ScanScribe 数据集上进行预训练,获得了在各种 3D-VL 任务上的最先进结果,同时展示了出色的数据效率。
Aug, 2023