- HandGCAT:从单目图像中抗遮挡重建三维手部网格模型
我们提出了一种从单眼图像中重建 3D 手部网格的稳健准确方法,并且在具有挑战性的手 - 物体遮挡情况下达到了最先进的性能。
- STAF:视频中基于时空对齐融合的三维人体网格恢复
提出了一种基于视频的 Spatio-Temporal Alignment Fusion (STAF) 模型,通过关注基于注意力的 Temporal Coherence Fusion Module (TCFM) 中的人体运动的相干线索,以及通 - 基于稀疏先验的水下机器人单目深度估计的度量缩放
本文主要关注移动水下载具中基于单目图像的实时稠密深度估计问题,提出了一种深度学习模型,通过融合来自三角化特征的稀疏深度测量结果来改善深度预测并解决尺度歧义问题。
- RoboDepth:鲁棒的异常深度估计
深度估计模型的鲁棒性测试套件 RoboDepth 提供了一个全面的测试框架来评估模型对不同场景和破坏因素的抵抗能力,并强调了当前主流深度估计模型在典型破坏情况下的脆弱性,为深度估计模型的设计提供了进一步的考虑因素。
- CrowdRec: 单色图像的 3D 众人重建
通过利用人群特征和提出群体约束优化方法,本研究旨在改善单个人物方法在人群图片上的表现,从而实现在大规模人群图像中获得准确的姿势和形状。
- ICCV利用单目图像和交互先验重建交互双手
通过构建二手交互先验并将交互重建任务重新定义为对先验的条件采样,我们提出了一种用于单目图像中手部交互重建的方法。通过大规模多模态数据集和可行性统计,我们进一步利用 VAE 将这些交互模式压缩为潜在代码在先验分布中。与用于定位的关节热图相比, - ICCVLATR:基于 Transformer 的单目图像三维车道检测
我们提出了一种新颖的 LATR 模型,这是一种基于前视 3D 感知特征的端到端三维车道检测器,通过使用查询和键值对的交叉注意力来检测三维车道,并通过使用车道感知查询生成器和动态三维地面位置嵌入来构建。该模型在合成 Apollo 和真实的 O - SimpleMapping:实时的、基于视觉惯性的深度多视角稠密建图
我们提出了一种实时的基于视觉惯性的稠密建图方法,可使用顺序单眼图像和惯性测量单元(IMU)读数进行增量式三维网格重建,并提出了稀疏点辅助的多视角深度学习神经网络 (SPA-MVSNet),即使在噪声密集的情况下也能实现高质量的 3D 网格重 - FSNet: 为自主驾驶重新设计自监督单目深度估计以进行全尺度深度预测
研究提出了一种综合的自我监督框架,利用惯性测量得到的帧间姿势,在自动驾驶场景中准确预测深度,特别是引入了一种全尺度深度预测网络 FSNet,对现有自我监督模型进行了四项重要改进,证明了其潜力。
- ECCVDevNet: 基于密度体构建的自监督单目深度学习
本研究提出了一种自我监督的单眼深度学习框架 - 密度体构建网络(DevNet),可以考虑三维空间信息并利用相邻相机锥体之间更强的几何约束,并通过沿着对应光线积分来生成深度图。
- ECCV稠密约束深度估计器用于单目三维物体检测
本文提出了一种名为 DCD 的算法,通过利用物体的关键点投影约束来估计多个深度候选项,使用更多地投影约束和产生更多深度候选项,实现了更准确的深度估计。该算法在 KITTI 和 WOD 基准测试上取得了最先进的性能。
- ECCV融合局部相似性实现对未知物体的基于检索的三维方向估计
本文提出了一种基于检索的策略来估计之前从未见过的对象的三维方向,并通过计算查询图像与合成参考图像之间的多尺度局部相似性,并引入自适应融合模块将局部相似性稳健地聚合成成对图像的全局相似度得分,达到比之前的工作更好地推广未见过的对象的效果。
- ICCV基于归一化流的概率单目三维人体姿态估计
本文提出了一种基于正规化流的人体 3D 姿态恢复方法,采用多种假设生成可行的 3D 姿势的后验分布,并结合 2D 检测器的不确定性信息建模不确定探测和遮挡,其中学习出的 3D 姿态先验和最优 M 损失的推广是实现成功的关键因素,该方法在人体 - CVPR自监督多帧单眼场景流
本文通过自监督学习介绍了一种基于多帧单目场景流网络的方法,该方法在保持实时效率的同时显著提高了准确性,并通过在 KITTI 数据集上进行测试达到了自我监督学习中的最新水平。
- 自我姿态:来自头戴式摄像头的 3D 自我姿态估计
借助底部 VR 设备上安装的鱼眼相机捕捉的单目图像,使用编码器 - 解码器架构和新型多分支解码器,实现了针对自我中心 3D 人体姿势估计的解决方案,并提出了一种大规模的照片逼真的合成数据集 xR-EgoPose。这项工作在合成和实际数据集上 - 单目图像和稀疏雷达数据的深度估计
利用深度神经网络,通过融合单眼图像和雷达数据点,探索实现更准确的深度估计。我们对来自不同角度的 RGB 图像和雷达测量的融合进行了全面的研究,并提出了一种基于观察结果的有效解决方案。在 nuScenes 数据集上的实验表明,我们的方法优于现 - ECCV自监督的单目可微渲染用于 3D 物体检测
本研究提出了一种基于自监督的方法,利用强形状先验和二维实例掩模来重建带纹理的三维物体并进行姿态估计,通过可微分渲染和先前预训练的单目深度估计网络推断图像中每个物体的三维位置和网格信息,实验结果表明本方法有效地利用嘈杂的单目深度和可微分渲染来 - CVPR深度脸部流:野外稠密三维面部运动估计
DeepFaceFlow 是一种基于 3D 的深度学习框架,用于快速准确地从单目图像中捕捉面部运动,并且可以应用于面部表情识别等领域,同时结合了 occlusion-aware 和 3D-based 损失函数进行训练和测试,方法优于现有的流 - DiverseDepth:利用多样数据进行仿射不变深度预测
本文提供了一种使用单目图像进行深度估计的方法,提供了一个大规模且多样化的数据集 Diverse Scene Depth 进行训练,学习到了不受仿射变换影响的深度信息,并通过多分支课程训练实现了对复杂场景的高质量深度恢复。
- CVPR三角化学习网络:从单目到立体 3D 物体检测
本文研究从立体图像中检测 3D 物体的问题,提出了使用 3D 锚点构建物体级对应的方法来增强检测和定位的深度神经网络,使用经济高效的渠道重新加权策略来增强表示特征。在 KITTI 数据集上,这些方法都优于现有方法。