- CamCo:可控相机的三维一致的图像到视频生成
通过引入 CamCo,我们为图像到视频生成器提供了精确参数化的相机姿态输入,通过 Plücker 坐标,以增强视频生成的 3D 一致性和相机控制能力,同时有效生成可信的物体运动。
- GFlow:从单目视频中恢复 4D 世界
使用 GFlow 框架,我们从单目视频中恢复动态的 4D 世界和相机姿态,通过使用深度和光流的 2D 先验进行聚类、优化和像素密集化,使得 GFlow 不仅可以进行 4D 重建,还可以进行对象追踪和无监督场景编辑。
- TD-NeRF: 基于截断深度先验的联合相机姿态与神经辐射场优化
通过联合优化辐射场和相机姿态,利用截断深度先验实现了从未知相机姿态训练 NeRF 的新方法 TD-NeRF,通过三个关键进展:1)提出基于截断正态分布的新型基于深度的射线采样策略,改善了姿态估计的收敛速度和准确性;2)引入了逐步改进深度精确 - FlowMap: 高质量相机位姿、内参和深度的梯度下降
FlowMap 是一种端到端可微分方法,用于解决视频序列的精确相机姿态、相机内参数和帧间密集深度。我们的方法通过基于梯度下降的最小二乘目标对由深度、内参和姿态引起的光流与通过现成的光流和点跟踪获得的对应进行比较来进行视频级梯度下降优化。此外 - CT-NeRF:复杂轨迹下的逐步优化神经辐射场与姿态
CT-NeRF 是一种仅使用 RGB 图像而不需要姿态和深度信息的增量重建优化管道,通过本地 - 全局捆绑调整和重投影几何图像距离约束,实现对相机姿态和场景结构的恢复,能够处理具有复杂轨迹的场景,并在新视角合成和姿态估计准确度方面优于现有方 - 从非姿势图像中学习 3D 感知的 GAN 模型与模板特征场
使用学到的模板特征字段 (TeFF) 实现训练图像的即时姿态估计,从而学习无人体姿态的 3D 感知生成对抗网络 (GANs)。实验结果表明,无论是定性还是定量方面,我们的方法相对于现有的最先进替代方法更具优势。
- NeRF2Points: 街景视图中大规模点云生成的辐射场优化
本研究论文采用 Neural Radiance Fields 方法,从城市景观图像中导出点云,并通过相机姿态的精确性、自动驾驶汽车采集的街景数据特点、以及新的算法(WIGO 和 LPiM 等)来解决相关挑战。
- 鲁棒的高斯点云糊化
本文主要研究了 3D 高斯喷洒(3DGS)中的常见误差源,包括模糊、不完美的相机姿态以及颜色不一致性,旨在改善其在像手持手机拍摄的实际应用中的鲁棒性。通过将运动模糊建模为相机姿态上的高斯分布,我们可以统一处理相机姿态的精炼和运动模糊矫正,并 - COMO:紧凑映射与里程计
COMO 系统是一个实时单目建图和里程计系统,通过一组三维锚点来编码密集几何信息,通过锚点投影解码密集几何,保证深度图在可见锚点处完整连接,该表示允许相机位姿和密集几何的联合优化,实现内在的三维一致性和高效的二阶推断,并引入一个前端来跟踪和 - 越多的 2D 视觉,越多的 3D 感知
基于人类基于过去经验从 2D 图像中推断出 3D 结构,并随着观察更多图像改进 3D 理解的行为,我们引入了 SAP3D,这是一个从任意数量的非约束图像进行 3D 重建和新视角合成的系统。给定一些非约束图像,我们通过测试时微调来调整预训练的 - VICAN:大规模相机网络的高效标定算法
通过引入一个动态元素 - 任意场景中可以自由移动的刚性物体,我们提出了一种新颖的方法来精确估计大型摄像头网络中的摄像头姿势,该方法可以可靠地从单张图像中推测出该物体的姿势,并解决了在直接估计摄像头之间相对姿势时遇到的挑战,从而实现了准确的摄 - 从任意多视角图像中恢复人体网格
从任意多视角图像中恢复人体网格涉及两个特点:任意的相机姿态和任意数量的相机视图。为了解决这个问题,我们提出了一个分治框架,用于从任意多视角图像中统一恢复人体网格。
- URS-NeRF:面向神经辐射场的无序滚动快门束调整
提出了一种新颖的滚动快门捆绑调整方法,用于神经辐射场(NeRF),利用无序滚动快门(RS)图像获取隐式 3D 表示。通过估计相机姿态和速度,恢复 RS 图像的物理形成,从而消除了对顺序数据的输入限制。采用自粗糙到精细的训练策略,利用场景图中 - PRAGO:基于目标检测的可微分多视角姿态优化
通过优化序列的几何任务,我们提出了一种称为 PRAGO 的求解相机位姿的方法,该方法通过在无序图像上进行目标位置的细化来优化旋转和绝对位置,实现了在小型稀疏场景中相比于非可微求解器更好的性能。
- CVPRFAR:灵活、准确和稳健的 6DoF 相机相对姿态估计
相机位姿估计的方法可以通过找到对应关系和解决基础矩阵的方式在大多数情况下提供高精度,而使用神经网络直接预测姿态的方法对于有限重叠的情况更加鲁棒,并能够推断出绝对平移尺度,但精度较低。我们展示了如何结合这两种方法的优点;我们的方法能够同时提供 - 多视角非标定深度相机下的多人三维姿态估计
利用稀疏的未校准深度相机提供的 RGBD 视频流,我们提出了一种简单的多视角深度人体姿态估计 (MVD-HPE) 管线,用于联合预测相机姿态和 3D 人体姿态,无需训练深度 3D 人体姿态回归模型。
- 单目视频的动态视图合成的扩散先验
通过预定制技术在视频帧上微调预训练的 RGB-D 扩散模型,然后将知识从微调的模型提取到包含动态和静态神经辐射场(NeRF)组件的 4D 表示中,实现几何一致性并保持场景的一致性,从而进一步推进动态新视角合成。
- SHARE: 人体对抗性重建
通过引入 SHARE 方法,利用对抗性数据增强提高现有 HPS 技术的稳健性,我们展示了该方法在多个单视图 HPS 技术上的性能,对于来自多个摄像机位置拍摄的图像降低了关节平均误差,且在许多挑战性案例中超过了现有模型的性能,凸显了其在多样的 - iFusion:从稀疏视角倒置扩散进行无姿态重建
iFusion 是一个新颖的 3D 物体重建框架,只需两个未知相机姿态的视图。通过使用预训练的新视图合成扩散模型进行相机姿态估计和新视图合成,iFusion 能够在 3D 物体重建中表现出良好的性能并与其他方法相融合。
- NoPose-NeuS:联合优化相机姿态与神经隐式表面的多视图重建
NoPose-NeuS 是一种将 NeuS 扩展到联合优化相机姿势、几何和颜色网络的神经隐式表面重建方法,通过将相机姿势编码为多层感知器 (MLP) 并引入多视图特征一致性和渲染深度损失,约束学习到的几何来获得更好的相机姿势和场景表面估计。