- TutteNet: 通过组合 2D 网格变形实现 3D 注入变形
通过多个二维网格片段线性映射的深度组合,本研究提出了一种新的代表性注射变形的三维空间表达方式,克服了注射方法的现有限制:不准确性、缺乏鲁棒性以及与通用学习和优化框架的不兼容性。该方法能够高效准确地优化和学习复杂变形,并在注射方法中表现出色。 - EgoChoir:从自我中心视角捕捉 3D 人物 - 物体互动区域
理解以自我为中心的人 - 物互动是人类中心感知的一个基本方面,为增强现实 / 虚拟现实和具身人工智能等应用提供支持。本研究提出了 EgoChoir 方法,通过协调视觉外观、头部运动和 3D 对象的信息来挖掘物体互动概念和人类意图,并在以自我 - CVPR触觉增强辐射场
我们提出了一种场景表示,称为触觉增强辐射场(TaRF),将视觉和触觉结合到共享的 3D 空间中,通过估计场景中给定 3D 位置的视觉和触觉信号。我们通过使用多视角几何方法将触觉信号注册到捕获的视觉场景上,并训练了一个条件扩散模型,通过从神经 - CVPRSparseOcc(稀疏隐含表示):重新考虑基于视觉的语义占用预测
提出了 SparseOcc,一种受稀疏点云处理启发的高效占据网络,利用了无损稀疏潜在表示的三个关键创新。通过空间分解的 3D 稀疏卷积核执行潜在补全的 3D 稀疏扩散器;通过特征金字塔和稀疏插值从其他尺度获取信息;将 Transformer - CVPR基于层次化点云表示的物体动态建模
基于连续点卷积的新型 U-net 架构能够自然地嵌入 3D 坐标信息,并通过已建立的下采样和上采样过程进行多尺度的特征表示,从而有效地改进了基于神经网络的三维物体动态建模方法。
- VRSO:用于静态物体标注的视觉中心重建
该论文介绍了 VRSO,一种用于静态物体注释的基于视觉的方法,它使用相机图像作为输入,可以在 3D 空间中恢复静态物体,并基于自动重建和注释流程生成用于静态对象检测任务的 GT,其平均重投影误差仅为 2.6 像素,约为 Waymo 标注的四 - 混凝土桥梁结构异常的多视角三维实例分割,用于强化结构检查
使用三阶段方法,在 3D 空间中从图像级别的检测模型上分割出异常实例,以实现有效的结构损伤评估。
- 嵌入式语言的三维高斯函数用于开放词汇场景理解
通过使用一种新颖的场景表示方法 —— 嵌入语言的 3D 高斯模型,本研究在 3D 空间中实现了开放词汇查询任务,取得了最佳的视觉质量和语言查询准确性,并且保持在单个台式 GPU 上的实时渲染帧速率。
- 生成分子构象场
本论文探讨了在给定分子图的情况下如何在三维空间中生成分子构象的问题,并将这些构象参数化为将分子图中的元素映射到三维空间中的连续函数。我们通过使用扩散生成模型 —— 分子构象场(Molecular Conformer Fields,MCF)来 - 三维刚体运动模型的双四元数旋转和平移等变性
利用双四元数表示 3D 空间中刚体运动,以同时描述旋转和平移,克服了传统代数无法准确编码平移的问题,并在实验证明了该方法在学习对象轨迹方面的有效性。
- 智能汽车进行自动化的汽车雷达校准
本文介绍了一种基于新型假设过滤方案的自动化和地理参考汽车雷达传感器外参校准的方法,该方法不需要车辆的外部修改并且使用从自动驾驶汽车获得的位置数据与过滤后的传感器数据相结合以创建校准假设,这种方法可以正确校准基础设施传感器,从而实现合作驾驶场 - 空中单目三维物体检测
通过双视图检测系统 DVDET,提出了一种基于地理变形的训练模块,实现了 2D 图像空间和 3D 物理空间的空中单目物体检测,并利用新的数据集 AM3D,证明了模型的可行性及性能。
- CVPRDGECN: 一种深度引导的边缘卷积网络用于端到端 6D 姿态估计
本研究提出了一种利用深度引导的边缘卷积网络来进行单目 6D 姿态估计的方法,从估计深度信息、改进 2D-3D 对应中的几何信息和拓扑关系、边缘卷积算法等方面出发来提高输出 6D 姿态的精度和鲁棒性,并在实验中展示出提出的网络在效果和效率上均 - CVPRSTCrowd: 拥挤场景中行人感知的多模态数据集
为了更好地评估拥挤场景下的行人感知算法,我们引入了一个大规模多模态数据集 STCrowd,并提出了一种新的方法 DHA 来增强拥挤场景中的行人感知。实验表明,我们的方法在各种数据集上均取得了最先进的性能。
- CVPRRADU: 面向飞行时间 ToF 数据降噪的射线对齐深度更新卷积操作
本文提出了一种迭代去噪方法,使用 2.5D 数据训练 3D 卷积操作以纠正点沿视角方向的位置,并使用自训练方法在标记数据稀缺的情况下在未标记的真实数据上进行训练,实验表明,该方法能够在多个数据集上胜过 SOTA 方法。
- ICCV学习精细识别的规范化 3D 物体表示
该研究提出了一种新型的精细物体识别框架,能够从一个单一的图像中学习恢复物体在三维空间中的变化,并在无需使用任何基准 3D 注释情况下,在图像集合上进行训练。
- 关于晶体结构预测能量最小化困难性的研究
本研究探讨晶体结构预测(CSP)相关问题,并采用形式证明的方式证明了此类问题为 NP-Hard 问题。重点研究了去除部分离子以得到最小电位能的问题。研究结果为三维欧几里得空间中嵌入加权图的计算问题分析做出了重要贡献。
- 深度多传感器车道检测
提出了一种结合 LiDAR 和相机传感器的深度神经网络,可以在 3D 空间中直接估计车道边界,在高速公路和城市道路等复杂情境下取得了很高准确度,解决了自动驾驶中车道检测精度不足的问题。