GenDeF: 学习生成变形场进行视频生成
使用可变形 3D 高斯方法进行动态场景重建,将高斯飞溅效果扩展以适应通过多层感知器定义的时间相关变形场的可变形高斯集合的表示,同时使用静态高斯点云允许多层感知器集中其表示能力,最终优化得到与状态最前沿的动态神经辐射场方法相媲美且具有更快的优化和渲染速度。
Dec, 2023
本论文提出了一种基于广义可变形卷积的新的视频帧插值方法,该方法可以学习运动信息并自由选择时空采样点,经过广泛的实验证明,该方法在处理复杂运动时表现出类似于最先进技术的性能。
Aug, 2020
为了解决现有动态场景生成方法的局限性,本研究提出一种新的流程,通过使用视频生成模型,摒弃了对多视图生成模型的依赖,从而充分利用了在多样真实世界数据集上训练的视频生成模型,生成具有增强的逼真度和结构完整性的动态场景,可从多个角度查看,为 4D 场景生成树立了新的标准。
Jun, 2024
通过将动态 3D 网格的可控性与新兴扩散模型的表达能力和可编辑性相结合,我们提出了一种新的方法来自动化计算机生成的视频的创作过程,并输出高质量和时间上一致的帧。
Dec, 2023
提出了一种使用 Transformer 架构学习隐式多视图一致场景表示并引入一系列 3D 数据增强技术的方法来增加视角多样性的深度估计网络,同时介绍了引入视角合成作为辅助任务,该网络在不使用显式几何约束的情况下在立体和视频深度估计方面取得了最先进的结果, 并在零样本领域泛化方面有了显著的提高。
Jul, 2022
我们提出了一个生成模型,根据粗略编辑的图片合成一个遵循预定布局的逼真输出,并从原始图像中转移细节,同时保留其部分的身份信息,并将其调整到由新布局定义的光照和上下文。
Mar, 2024
通过探索条件生成模型的新的形式和在图像、3D 动画和视频中的创新应用,本论文试图在计算机视觉领域推动创新。我们的研究聚焦于提供噪声和视觉数据的可逆变换的体系结构,并应用编码器 - 解码器结构进行生成任务和 3D 内容操作。在所有情况下,我们都将条件信息纳入生成过程中,以提高视觉数据的合成效率和生成内容的质量。
Oct, 2023
本文探讨了生成对抗网络 (GANs),将神经隐式表示与时间感知区别器相结合,发展了一种 GAN 框架,仅用单目视频合成了 3D 视频,能够学习可分解的 3D 结构和运动的丰富嵌入,实现了新的时空渲染视觉效果,同时也能产生与现有 3D 或视频 GANs 相媲美的图像质量。
Jun, 2022
4DGen 是一种新颖的综合框架,将 4D 内容创建任务拆分为多个阶段,利用静态 3D 资产和单目视频序列作为构建 4D 内容的关键组成部分,使用动态 3D Gaussians 构建 4D 表示,在训练期间利用渲染进行高分辨率监督,从而实现了高质量的 4D 生成,并实施了 3D 感知的得分蒸馏采样和平滑正则化以提供空间 - 时间伪标签和无缝一致性先验,相比现有基线方法,在忠实重建输入信号和从新视点和时间步骤推断渲染方面取得了具有竞争力的结果,最重要的是,我们的方法支持基于实际场景的生成,为用户提供了增强控制,这是以前方法难以实现的特点。
Dec, 2023