- TripletMix: 三维理解的三元组数据增强
我们提出了 TripletMix,一种新的方法来解决多模态数据增强在 3D 理解中的问题,通过混合增强的原则同时增强文本、图像和点云三种模态数据,从而提高模型的跨模态理解能力和泛化能力。
- SCANet: 自校正组装网络纠正乐高组装错误
自主组装和 3D 视觉在机器人技术中存在一些挑战,特别是确保组装正确性。为了解决这一问题,本研究提出了单步组装错误校正任务,并引入了 LEGO 组装错误校正数据集(LEGO-ECA)以支持相关研究。另外,我们提出了自校正组装网络(SCANe - Swin3D++:3D 室内场景理解的有效多源预训练
在本研究中,我们发现了 3D 室内场景数据集之间的领域差异的主要来源,并提出了基于 Swin3D 的增强架构 Swin3D++,用于对多源 3D 点云进行高效预训练。Swin3D++ 引入了领域特定机制来解决领域差异,并增强了在多源预训练中 - Diff-OP3D:连接 2D 扩散以进行 Open Pose 3D 零样本分类
通过在 3D 视觉领域运用 Contrastive Language-Image Pre-training (CLIP) 方法,本论文提出了一个更具挑战性的 3D 开放姿态零样本分类基准,并通过设计一个简洁的角度优化机制以及将 2D 预训练 - MVHumanNet: 一个大规模的多视图日常穿着人类捕捉数据集
该研究论文介绍了一个名为 MVHumanNet 的大规模 3D 人体数据集,其中包含 4500 个人的多视角行动序列,以及 9000 个日常服装、60000 个运动序列和 6.45 亿帧的详细注释,通过该数据集的使用,进行了多个 2D 和 - Hulk:面向人类中心任务的通用知识翻译器
Hulk 是第一个多模态的人本主义通用模型,可以同时处理大多数主流任务,无需任务特定的微调,涵盖 2D 视觉、3D 视觉、基于骨架的和视觉语言任务。
- ICCV光度挑战物体的多模态数据集采集
本文介绍了一个用于增强现有的 3D 感知和 6D 物体姿态数据集的新注解和获取方法,通过机器人前向运动学、外部红外跟踪器和改进的校准和注解过程,提出了一个多模态传感器装置,据此创建了高精度的 3D 数据,有效克服了现有数据集的限制,并为 3 - ICCV拍照:点云模型的 3D 到 2D 生成预训练
我们提出了一种新颖的适用于任何点云模型的 3D 到 2D 生成预训练方法,通过交叉注意机制生成来自不同指示姿势的视图图像作为预训练方案,以精确监督帮助 3D 主干更好地理解点云的几何结构和立体关系,实验结果证明了我们提出的方法在提升架构导向 - POPE:使用一个参考物,在任何场景中准确预估物体的六自由度位姿
该研究提出了一种称为 POPE 的物体姿态估计方法,利用预训练的大型 2D 基础模型,采用具有分层特征表示和 3D 几何原则的框架,并估计新视图中的物体提示和目标物体之间的相对相机姿态,实现了零样本环境下的 6DoF 物体姿态估计,不仅能完 - ChatGPT 计算机视觉何时到来?从 2D 到 3D
本文探讨了 ChatGPT 和其改进版本 GPT4 已经如何利用单一模型解决了几乎所有文本相关任务,并从模型角度提供了深度学习在文本、图像和 3D 领域的研究进展。同时,文章还从数据角度探讨了 AIGC 的发展,并展望了 AIGC 在 3D - CVPRMVImgNet:一种多视图图像的大规模数据集
提出了一个名为 MVImgNet 的大规模多视图图像数据集,它包含了从 238 个类别的 219,188 个视频中捕获的 650 万个帧。这个数据集被用于在 3D 视觉和 2D 视觉任务中进行了各种实验,包括辐射场重建、多视图立体和视角一致 - CLIP2Point:使用图像深度预训练将 CLIP 转换为点云分类
提出了一种新的基于对比学习的图像 - 深度预训练方法 CLIP2Point,通过加强深度特征捕捉视觉和文本特征,增强深度聚合不变性,以实现将 CLIP 知识转移到 3D 视觉,并在零样本和少样本分类任务上实现了最优结果。
- P2P: 使用点对像素提示调整预训练图像模型,进行点云分析
本文探讨如何使用预训练的 2D 知识,通过 Point-to-Pixel Prompting 对预训练的图像模型进行微小调整,以适应于点云分析任务。经过广泛实验,该方法取得了很好的成绩,并在 ScanObjectNN 的最难设置上达到了 8 - ECCV自监督预训练在三维视觉中的不变性深入剖析
本文针对自监督学习在 3D 视觉中的应用,提出了一个统一的框架,并对各个不变性进行了全面的研究和比较。同时,文章还提出了一个简单而有效的对 3D 编码器和深度图编码器进行联合自对比学习的方法,并在下游任务中取得了显著的性能提升。
- 级联极线 RAFT 的多视角立体匹配
提出 CER-MVS (Cascaded Epipolar RAFT Multiview Stereo) 方法,使用 RAF(Recurrent All-Pairs Field Transforms)架构,引入 epipolar cost - 快速准确的关键点匹配的高效线性注意力
本文提出了一种基于 Transformer 的 3D 视觉应用中的线性注意力机制,通过全局和局部信息聚合进行关键点匹配,同时提出了联合学习来简化和加速特征匹配,最终在几个基准测试中取得了具有竞争力的性能。
- CVPR输入级别感应偏置用于 3D 重建
本文通过将几何归纳偏置直接注入模型作为额外输入,而非使用特殊架构,来解决 3D 重建问题。研究将摄像机、投射光线和对极几何编码为模型输入,并在多个基准测试上展示具有竞争力的多视图深度估计性能。
- ICCV通天塔:结合图像、语言和 3D 几何学习多模视觉
本文提出了一个新的大规模数据集 WikiScenes 作为图像、文本和 3D 几何的多模态推理测试平台,利用 3D 几何提供的强约束将语义概念与图像像素和 3D 点联系起来,展示了 WikiScenes 在学习语义概念上的效用。
- CVPRMask-ToF: 时间飞行成像中学习微透镜掩模进行飞行像素纠正
通过学习亚像素级的遮挡掩码来消除 ToF 深度捕捉中的飞行像素,提出了 Mask-ToF 方案,它通过卷积神经网络解码空间几何信息从而产生高保真、低飞行像素深度重建。
- ICCV三维视觉中共识和非最小问题的凸松弛
利用现有的数值计算代数几何理论中的多项式优化问题,提出了一种通用的非最小化求解器,并将其应用于三维视觉中的非最小问题和一致性最大化问题,结果显示这种方法的结果与现有的方法相比非常有竞争力并且容易实现。