- DyBluRF: 模糊单目视频中的动态神经光辐射场
提出 DyBluRF 方法,通过在受到运动模糊的单目视频中捕捉相机轨迹和场景内物体的离散余弦变换 (DCT) 轨迹,以及采用全局跨时间渲染方法来实现生成高质量、清晰的新视角,并保持场景的时空一致性。在经过特定定制的多样化动态场景数据集上进行 - CTNeRF:来自单眼视频的动态神经辉度场的跨时间变压器
我们的研究目标是从复杂动态场景的单目视频中生成高质量的新视图。为了解决过去方法在准确建模复杂物体运动方面的局限性,我们提出了一种新方法,结合了近期的广义 NeRF 和在时间和频率域中操作的模块,以改善动态场景的图像合成的精确度和视觉质量。
- DiffPortrait3D: 控制扩散用于零样画像视角合成
我们提出了 DiffPortrait3D,这是一种条件扩散模型,能够从一个野外肖像合成一致的 3D 真实场景。我们利用大规模图像数据预训练的 2D 扩散模型作为渲染骨干,通过外貌和相机姿势的解耦集中控制对图像进行去噪。我们进一步引入可训练的 - 梦幻无人机
DreamDrone 是一种从文本提示生成无限飞行场景的创新方法,通过特征对应引导扩散过程和中间潜在编码的高级编辑技术,能够以几何一致性生成新颖的视角,并提供具有卓越视觉质量的高度真实的场景生成,这是从文本提示进行零样本持久视图生成的重要进 - DreamComposer: 可控的多视角条件下的 3D 物体生成
利用预训练的 2D 大规模生成模型,我们提出了 DreamComposer,一个可灵活可扩展的框架,通过注入多视图条件来增强现有的视图感知扩散模型,以生成具有高保真度的具有多视图条件的新视图图像,并用于可控的 3D 物体重建和其他各种应用。
- 快速合成非正式视频
基于单目视频的全局静态场景模型和逐帧点云的动态内容的混合视频表示方法能够实时合成高质量的新视图,并且训练速度比现有方法快 100 倍。
- GPS 高斯:用于实时人体新视角合成的通用像素级三维高斯扩散
通过 GPS-Gaussian 方法,我们可以实时合成一个字符的新视图,以稀疏的视图相机设置进行 2K 分辨率渲染。通过在源视图上定义高斯参数图并直接回归高斯喷洒属性,我们无需进行任何微调或优化即可实现即时的新视图合成。我们通过大量的人体扫 - 消除短暂物体:街景合成的联合相机改进和短暂物体移除
通过使用神经点光场场景表示,我们提出了一种处理室外情景视图合成的方法,该方法能够解决运动物体和相机姿态漂移等挑战,并通过检测和屏蔽动态物体来重构无瑕疵的新场景,同时优化相机姿态和视图合成过程,从而实现两者的同时改进。通过在真实世界的城市数据 - iNVS:借用扩散修复算法实现新视角生成
从单一源图像生成一致的新视图的方法,利用单目深度估计器将源视图的可见像素转移到目标视图,并通过基于外极线的新的屏蔽机制进一步改善方法的质量,从而在各种对象上实现零样本新视图合成。
- 拖动视图:通过无表征图像生成泛化的新视图
通过 DragView 框架,可以生成具有新视角的场景,无需 2D 先验模型或摄像机姿态估计,实现了与其他无姿态要求的场景表示网络相比优秀的视图合成质量,并能够生成具有灵活摄像机轨迹的逼真新视角。
- AltNeRF:通过交替优化深度和姿态学习鲁棒的神经辐射场
AltNeRF 是一个新颖的框架,利用自监督单目深度估计(SMDE)从单目视频中创建具有弹性的 Neural Radiance Fields(NeRF)表示,无需依赖已知的相机姿态,通过交替算法将 NeRF 的输出与 SMDE 融合,生成逼 - ICCVLoLep: 基于本地学习平面和自注意力遮挡推断的单视图合成
我们提出了一种新的方法 LoLep,通过从单个 RGB 图像回归学习本地平面,准确地表示场景,从而生成更好的新视图。该方法将深度信息从中剔除,且在无深度信息的情况下回归合适的平面位置是一个具有挑战性的问题。为了解决这个问题,我们将视差空间预 - SparseGNV: 利用稀疏输入视图生成室内场景的新视图
本文介绍了 SparseGNV 这个基于三个模块的学习框架,通过将 3D 结构和图像生成模型结合起来,在保持图像真实性和视角一致性的基础上生成室内场景的新视角。该模型通过大量的室内场景数据进行训练,可快速地在新的场景中生成多角度的视角,并在 - CVPRReLight My NeRF: 用于真实世界物体的新视角综合和重光数据集
针对如何从神经光辐射场(NeRF)中渲染新视角的问题,本文介绍了 ReNe (重新照明 NeRF) 数据集,细分了现实世界中的物体以及光与相机姿态,通过该数据集,可以表明 NeRF varients 的光照能力,进而确定了一种轻量级体系结构 - CVPR深度神经网络在三维泛化中的特性探究
本文旨在研究和描述深度学习模型对于目标在不同旋转角度下的 2D 图像是否能够进行准确分类,探讨了三种通用的模型 (3D 通用、纯 2D 匹配和基于视角线性组合匹配) 在模型泛化性方面的表现,其中可以发现深度模型泛化能力强,但是其实现方式与这 - CVPRDynIBaR: 神经动态图像渲染
本篇论文提出一种基于体积图像渲染的新方法,通过汇集场景相邻视野的特征,以动态场景感知的方式合成新视点,从而在长视频中合成具有真实感的新视图,能够更好地应对复杂的场景动力学和不受限约束的相机轨迹。
- 在野外应用学习的自适应多面板图像进行单视图合成
本文提出一种基于多平面图像(MPI)表示的新方法来合成野外照片的新视角,结合深度估计和颜色填充技术,通过多平面图像表示解决具有复杂 3D 几何的场景,使用大规模立体训练数据并经过实验验证达到最新成果。
- 利用全向图像完善技术提高新视角合成质量
本文介绍了一种基于神经辐射场(NeRF)的方法,用于从单个 360 度 RGB-D 图像合成新景象,并利用 2D 图像生成模型,最大权重独立集问题和模拟退火等算法,以优化生成的图像。
- ECCV自由视点 RGB-D 人体表演捕捉和渲染
提出了一种利用低成本深度相机从单视角和稀疏 RGB-D 传感器中捕获任意人物,并从未见过的视角生成逼真渲染的视图合成框架。该方法可重建面部表情,具有良好的鲁棒性和高质量的渲染效果,优于之前的视图合成方法。
- CVPR场景表征变换器:通过隐式场景表征进行无几何新视图合成
该论文提出了一种名为 SRT 的方法,用于从少量 RGB 图像中推断出 3D 场景表示,并在单个前向传递过程中合成新视图,使其超越了最近的基线。