4K4DGen:4K 分辨率下的全景 4D 生成
我们提供了一个文本转 3D 360 度场景生成流水线,能够在几分钟内为野外环境创建综合的 360 度场景。我们的方法利用 2D 扩散模型的生成能力和提示自我完善来创建高质量和全局连贯的全景图像,这作为一个初步的 “平面”(2D)场景表示。随后,通过采用粒子技术将它提升到 3D 高斯函数,以实现实时浏览。为了产生一致的 3D 几何结构,我们的流水线通过将 2D 单目深度对齐成全局优化点云,构建了一个空间连贯的结构。这个点云作为 3D 高斯函数的初始状态的质心。为了解决单视角输入固有的不可见问题,我们对合成和输入相机视图应用语义和几何约束作为规范,这些约束指导高斯函数的优化,帮助重建不可见的区域。总之,我们的方法提供了一个全局一致的 360 度视角的 3D 场景,相较于现有技术提供了更加增强的沉浸式体验。项目网址:this http URL
Apr, 2024
本文提出了 4K4D 方法,该方法使用 4D 点云表示实现高分辨率、实时的视图合成,其在渲染速度和质量方面具有突出优势,并通过不同 iable 深度剥离算法,从 RGB 视频中学习到了该模型。实验证明,该方法在 1080p 分辨率下能够以 400 FPS 的速度渲染出 DNA-Rendering 数据集,并在 4K 分辨率下以 80 FPS 的速度渲染出 ENeRF-Outdoor 数据集,是之前方法的 30 倍快并达到了最先进的渲染质量。
Oct, 2023
提出了一种名为 360-Degree Video Diffusion model (360DVD) 的可控全景视频生成方法,通过引入 360-Adapter 轻量级模块和辅助 360 度增强技术,将预训练的文字到视频模型转化为生成全景视频的模型,并提出了 WEB360 数据集来训练 360DVD,实验证明其在全景视频生成方面具有卓越的优势和效果。
Jan, 2024
使用一种称为 PanoDiff 的新型方法,通过使用一个或多个未注册的 Narrow Field-of-View (NFoV) 图像,高效地生成完整的 360° 全景图,该方法通过两个主要组件来克服以往方法中的局限性,包括两阶段的角度预测模块和一种基于潜在扩散的全景生成模型,实验表明 PanoDiff 实现了最先进的全景生成质量和高可控性,适用于内容编辑等应用。
Aug, 2023
基于扩散模型的 360 度全景图像生成任务的技术报告,提出了一种圆形混合策略,以实现几何连续性,同时提出了文本到 360 度全景图像和单图像到 360 度全景图像两个任务的模型
Nov, 2023
为了解决现有动态场景生成方法的局限性,本研究提出一种新的流程,通过使用视频生成模型,摒弃了对多视图生成模型的依赖,从而充分利用了在多样真实世界数据集上训练的视频生成模型,生成具有增强的逼真度和结构完整性的动态场景,可从多个角度查看,为 4D 场景生成树立了新的标准。
Jun, 2024
提出了一种基于变换器的 360 图像扩充框架 Dream360,可以从用户选择的视口生成多样、高保真、高分辨率的全景图,考虑了 360 图像的球面特性,并通过两个关键学习阶段(基于 Spherical-VQGAN 的编码本全景扩充和新颖的频率感知细化)实现了更大的扩充灵活性和保真度。
Jan, 2024
此研究首创了一种生成沉浸式世界的方法,从古老的冒险游戏如《谜思》中汲取灵感,并运用现代的文本到图像模型。我们研究了将二维全景图转化为三维场景的复杂过程,解决了观察者在包围球内部导航时发生的感知扭曲问题。我们的方法采用类似 “修补” 技术的方法来纠正扭曲投影,实现了局部一致世界的平滑构建。这为人机交互中的技术、感知和体验现实之间的相互关系提供了广泛的洞察。
Nov, 2023
在本文中,我们介绍了一种名为 4D Panoptic Scene Graph(PSG-4D)的新表示方法,用于在动态的四维世界中桥接原始视觉数据和高层次视觉理解。我们构建了一个富注释的 PSG-4D 数据集,并提出了 PSG4DFormer 模型,该模型可以预测全景分割掩码、跟踪掩码并通过关系组件生成相应的场景图。我们的方法在新数据集上进行了广泛实验,表明它可以作为 PSG-4D 未来研究的一个强有力的基准。最后,我们提供了一个真实世界的应用示例,以展示如何通过将大型语言模型整合到我们的 PSG-4D 系统中来实现动态场景理解。
May, 2024
提出了一种高效的视频到 4D 对象生成框架 Efficient4D,能够在连续的摄像机轨迹下实时渲染高质量的时空一致图像,通过直接训练具有明确点云几何结构的新颖 4D 高斯涂层模型,大大提升了速度,同时保持创新视角合成质量。
Jan, 2024