- CVPRPlanarRecon:基于单目视频的实时 3D 平面检测与重建
PlanarRecon 是一种基于神经网络的新框架,通过在视频中逐渐检测 3D 平面,实现了对场景的全局连贯检测与重构,并在 ScanNet 数据集上取得了最新的最优性能。
- D$^2$NeRF: 自监督解耦单目视频中的动态和静态物体
本文介绍了一种自我监督的方法 D^2NeRF,可以基于单目视频学习 3D 场景,分离动态物体与静态背景,实现影子的分离与消除,并在各种场景下获得较好的效果。
- CVPR空间时间并行变压器用于手臂动态估计
该研究提出了一种基于 Spatial-Temporal Parallel Arm-Hand Motion Transformer (PAHMT) 的方法,来预测单目视频中的手臂和手的动态,并在不同的挑战性场景下表现出鲁棒性。
- CVPR可玩环境:时空视频处理
该研究提出了一种新的交互视频生成和操作方法 ——Playable Environments,该方法包括无监督学习、神经辐射场和体积渲染等技术,可以通过提供操作序列,控制相机视角和增强视频外观等手段,生成可玩的三维视频。
- 通过自监督学习实现视频中一致的 3D 手部重建
提出了一种通过自监督学习从单目视频中重构 3D 手部模型的方法,利用 2D 手部关键点和图像纹理约束进行姿态、形状、纹理、相机视角的估计,达到与全监督方法相似的重构性能,尤其是在视频训练数据下可以显著提高重构精度和一致性。
- CVPRHumanNeRF: 从单目视频中自由视点渲染行走人物
本文介绍了一种自由视点渲染的方法 - HumanNeRF,它可以在给定的人体复杂运动的单目视频中工作,并且可以使主体在任意新的相机视角或甚至特定帧和身体姿势的全 360 度相机路径下呈现。
- AAAI通过规范化网络实现野外动作再定位的 MoCaNet
该研究提出了一种新的框架,通过结构和视图标准化操作,将 3D 动作重定位任务从控制环境转移到野外场景。该方法利用在线视频进行非监督训练,不需要使用任何运动捕捉系统或 3D 重建程序,从 2D 视频中重定位身体动作到 3D 角色,具有高精度的 - CVPR使用时间一致性损失实现单目视频高分辨率纹理和服饰 3D 人模重建
本文介绍了一种从单目视频中学习时态一致的 3D 服饰人物重建的新方法,该方法通过引入新的时间一致性损失函数和混合表示学习,显著提高了重建的准确性、完整性、质量和时间一致性。
- CVPR通过整合自上而下和自下而上网络进行单目 3D 多人姿态估计
本研究提出一种结合自上而下和自下而上方法的 3D 多人姿态估计方法,并利用两人姿态鉴别器和半监督方法增强鲁棒性和准确性,实验证明该方法比现有基线模型更有效。
- 使用多层蒙版进行单目深度和自我运动的无监督学习
本文提出了一种新的基于单目视频多个掩模的无监督深度和自我运动学习方法,该方法通过几何关系过滤了不匹配的像素,提高了无监督学习的效率和准确性,并在 KITTI 数据集上表现良好。
- CVPRNeuralRecon:单目视频实时一致性三维重建
本文介绍了名为 NeuralRecon 的新型框架,可实时从单目视频中重建 3D 场景。该系统采用基于学习的 TSDF 融合模块,通过神经网络直接逐个重建局部表面,从而捕捉局部平滑性先验和全局形状先验,实现高精度,连贯和实时的表面重建。实验 - 鲁棒性一致的视频深度估计
本文提出了一种用于估计一致密集深度图和相机姿态的算法,该算法基于学习的深度先验和几何优化相结合,不需要输入相机姿态,并能够在包括噪声、抖动、运动模糊和卷帘快门失真等多种挑战性条件下实现稳健的重建。
- 通过三维场景支撑从自我中心视频中捕获四维人体
我们介绍了一种重建第二人称 3D 人体网格时间序列的新任务,并通过优化方法的应用解决了视角独特的自我中心视频人体捕捉的技术难题,从而比之前的单眼视频人体动作捕捉方法更准确地估计人体姿态和形状。
- CVPR用神经场景流场进行动态场景的时空视图合成
提出了一种使用神经场地理概念表示动态场景,并利用单目视频生成新视角和时间合成的方法。通过神经网络优化新的场景流场来适应观测输入视角,并在复杂动态场景中表现出较好的性能。
- Face2Face: 实时 RGB 视频人脸捕获和再现
Face2Face 是一种用于实时面部复刻的创新方法,可以通过非刚性基于模型的束缚,跟踪面部表情,实现来自单眼录制的目标视频序列的面部表情的动画化,并以逼真的方式重新渲染操作后的输出视频。
- 单目实时体积表演捕捉
本研究通过引入 PIFu 算法和使用表面本地化算法以及在线难例挖掘技术,从而在不需要昂贵的多视图系统或繁琐的预定义模型的情况下,从单眼视频中实时捕捉和渲染了一个完整的实纹三维人体。
- ECCV单目视频中的运动学三维物体检测
提出了一种基于线性运动的单目视频三维物体检测方法,该方法通过将物体方向分解为两个部分并引入自平衡的三维置信度方法,有效地提高了三维定位精度,同时在 KITTI 自动驾驶数据集上取得了最好的表现。
- 视频深度一致性估计
通过利用传统的运动结构恢复来建立视频中像素的几何约束,使用基于学习的先验 —— 一种单图像深度估计的卷积神经网络,我们给出了一种用于重建密集、几何一致深度的算法。测试时,我们对这个网络进行微调,以满足特定输入视频的几何约束,同时保留其在视频 - AAAI使用具有显式遮挡训练的时空网络进行 3D 人体姿势估计
借助多尺度空间特征和多步幅时间卷积网络,在设计 A 的基础上,B 通过在训练过程中模拟各种遮挡情况来提高露出度鲁棒性,并利用 2D 视频数据注入半监督学习能力。实验证实了该方法的有效性,并且消融研究表明我们网络的单个子模块的优势。
- 融合流 - 深度提议的视频深度估计
该研究提出了一种基于可微的光流深度预测层的方法,包括光流深度预测层、相机姿态优化模块和深度融合网络,该方法在三个公共数据集上的实验结果表明其性能优于现有的深度估计方法,并具有合理的交叉数据集泛化能力。