4K4DGen：4K 分辨率下的全景 4D 生成

Jun, 2024

4K4DGen：4K 分辨率下的全景 4D 生成

4K4DGen: Panoramic 4D Generation at 4K Resolution

Renjie Li, Panwang Pan, Bangbang Yang, Dejia Xu, Shijie Zhou...

TL;DR通过引入一种新的管道和技术，我们实现了将单个全景提升为沉浸式 4D 体验，生成 360 度视角下具有 4K 分辨率的全方位动态场景，并提供沉浸式用户体验。

Abstract

The blooming of virtual reality and augmented reality (VR/AR) technologies has driven an increasing demand for the creation of high-quality, immersive, and dynamic environments. However, existing generative techn

virtual reality augmented reality 4d generation panoramic video immersive user experience

发现论文，激发创造

DreamScene360: 无约束的文本到 3D 场景生成与全景高斯喷洒

我们提供了一个文本转 3D 360 度场景生成流水线，能够在几分钟内为野外环境创建综合的 360 度场景。我们的方法利用 2D 扩散模型的生成能力和提示自我完善来创建高质量和全局连贯的全景图像，这作为一个初步的 “平面”（2D）场景表示。随后，通过采用粒子技术将它提升到 3D 高斯函数，以实现实时浏览。为了产生一致的 3D 几何结构，我们的流水线通过将 2D 单目深度对齐成全局优化点云，构建了一个空间连贯的结构。这个点云作为 3D 高斯函数的初始状态的质心。为了解决单视角输入固有的不可见问题，我们对合成和输入相机视图应用语义和几何约束作为规范，这些约束指导高斯函数的优化，帮助重建不可见的区域。总之，我们的方法提供了一个全局一致的 360 度视角的 3D 场景，相较于现有技术提供了更加增强的沉浸式体验。项目网址：this http URL

Apr, 2024

4K4D：实时 4K 分辨率的 4D 视图合成

本文提出了 4K4D 方法，该方法使用 4D 点云表示实现高分辨率、实时的视图合成，其在渲染速度和质量方面具有突出优势，并通过不同 iable 深度剥离算法，从 RGB 视频中学习到了该模型。实验证明，该方法在 1080p 分辨率下能够以 400 FPS 的速度渲染出 DNA-Rendering 数据集，并在 4K 分辨率下以 80 FPS 的速度渲染出 ENeRF-Outdoor 数据集，是之前方法的 30 倍快并达到了最先进的渲染质量。

Oct, 2023

360DVD: 360 度视频扩散模型下的可控全景视频生成

提出了一种名为 360-Degree Video Diffusion model (360DVD) 的可控全景视频生成方法，通过引入 360-Adapter 轻量级模块和辅助 360 度增强技术，将预训练的文字到视频模型转化为生成全景视频的模型，并提出了 WEB360 数据集来训练 360DVD，实验证明其在全景视频生成方面具有卓越的优势和效果。

Jan, 2024

从少量未注册的超广角图像生成 360 度全景

使用一种称为 PanoDiff 的新型方法，通过使用一个或多个未注册的 Narrow Field-of-View (NFoV) 图像，高效地生成完整的 360° 全景图，该方法通过两个主要组件来克服以往方法中的局限性，包括两阶段的角度预测模块和一种基于潜在扩散的全景生成模型，实验表明 PanoDiff 实现了最先进的全景生成质量和高可控性，适用于内容编辑等应用。

Aug, 2023

Diffusion360: 基于扩散模型的无缝 360 度全景图像生成

基于扩散模型的 360 度全景图像生成任务的技术报告，提出了一种圆形混合策略，以实现几何连续性，同时提出了文本到 360 度全景图像和单图像到 360 度全景图像两个任务的模型

Nov, 2023

4Real: 通过视频扩散模型实现逼真的四维场景生成

为了解决现有动态场景生成方法的局限性，本研究提出一种新的流程，通过使用视频生成模型，摒弃了对多视图生成模型的依赖，从而充分利用了在多样真实世界数据集上训练的视频生成模型，生成具有增强的逼真度和结构完整性的动态场景，可从多个角度查看，为 4D 场景生成树立了新的标准。

Jun, 2024

Dream360: 基于 Transformer 的多样化沉浸式室外虚拟场景创建的 360 图像拓展

提出了一种基于变换器的 360 图像扩充框架 Dream360，可以从用户选择的视口生成多样、高保真、高分辨率的全景图，考虑了 360 图像的球面特性，并通过两个关键学习阶段（基于 Spherical-VQGAN 的编码本全景扩充和新颖的频率感知细化）实现了更大的扩充灵活性和保真度。

Jan, 2024

展开虚拟世界，创造沉浸式体验

此研究首创了一种生成沉浸式世界的方法，从古老的冒险游戏如《谜思》中汲取灵感，并运用现代的文本到图像模型。我们研究了将二维全景图转化为三维场景的复杂过程，解决了观察者在包围球内部导航时发生的感知扭曲问题。我们的方法采用类似 “修补” 技术的方法来纠正扭曲投影，实现了局部一致世界的平滑构建。这为人机交互中的技术、感知和体验现实之间的相互关系提供了广泛的洞察。

Nov, 2023

4D 全景场景图生成

在本文中，我们介绍了一种名为 4D Panoptic Scene Graph（PSG-4D）的新表示方法，用于在动态的四维世界中桥接原始视觉数据和高层次视觉理解。我们构建了一个富注释的 PSG-4D 数据集，并提出了 PSG4DFormer 模型，该模型可以预测全景分割掩码、跟踪掩码并通过关系组件生成相应的场景图。我们的方法在新数据集上进行了广泛实验，表明它可以作为 PSG-4D 未来研究的一个强有力的基准。最后，我们提供了一个真实世界的应用示例，以展示如何通过将大型语言模型整合到我们的 PSG-4D 系统中来实现动态场景理解。

May, 2024

从单视角视频快速动态生成三维物体

提出了一种高效的视频到 4D 对象生成框架 Efficient4D，能够在连续的摄像机轨迹下实时渲染高质量的时空一致图像，通过直接训练具有明确点云几何结构的新颖 4D 高斯涂层模型，大大提升了速度，同时保持创新视角合成质量。

Jan, 2024