NaRCan: 自然精炼的标准图像与扩散先验相结合的视频编辑

Jun, 2024

NaRCan: 自然精炼的标准图像与扩散先验相结合的视频编辑

NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior for Video Editing

Ting-Hsuan Chen, Jiewen Chan, Hau-Shiang Shiu, Shih-Han Yen, Chang-Han Yeh...

TL;DR提出了一种视频编辑框架 NaRCan，通过集成混合变形场和扩散先验生成高质量的自然规范图像来表示输入视频，该方法利用单应性来建模全局运动，并使用多层感知器（MLPs）来捕捉局部残余变形，增强了模型处理复杂视频动态的能力。通过在训练的早期引入扩散先验，我们的模型确保生成的图像保持高质量自然外观，使得生成的规范图像适用于视频编辑中的各种下游任务，这是当前的基于规范的方法所无法实现的。此外，我们还结合了低秩自适应（LoRA）微调方法，并引入了噪音和扩散先验更新调度技术，将训练过程加快了 14 倍。广泛的实验结果表明，我们的方法在各种视频编辑任务中胜过现有方法，并产生了连贯且高质量的编辑视频序列。请参阅我们的项目网页以获取视频结果。

Abstract

We propose a video editing framework, narcan, which integrates a hybrid deformation field and diffusion prior to generate high-quality nat

video editing framework narcan diffusion prior canonical images video dynamics

发现论文，激发创造

单目视频的动态视图合成的扩散先验

通过预定制技术在视频帧上微调预训练的 RGB-D 扩散模型，然后将知识从微调的模型提取到包含动态和静态神经辐射场（NeRF）组件的 4D 表示中，实现几何一致性并保持场景的一致性，从而进一步推进动态新视角合成。

Jan, 2024

使用扩散模型进行时间一致姿势指导的人体图像动画

提出了一种姿势驱动的人体图像动画方法 TCAN，通过利用预训练的 ControlNet 以及适应 LoRA 到 UNet 层等技术，实现了对错误姿势的鲁棒性和时间一致性，并通过分析注意力图和引入温度图等方法进一步优化了动画质量。

Jul, 2024

CaLDiff: 基于姿态扩散的 NeRF 相机定位

本研究通过扩散模型进行相机姿态调整，从而在 NeRF 中实现相机定位，并且与现有方法和基准线相比，实验结果表明其定位精度显著提高。

Dec, 2023

可控的带扩散模型的长图像动画

在计算机视觉中，从静态图像生成逼真的动画视频是一个重要的研究领域。本文介绍了一种基于运动先验和视频扩散模型的开放领域可控图像动画方法，能够实现对可移动区域的运动方向和速度的精确控制，同时在保持内容、场景和动作协调一致性的同时生成长度超过 100 帧的长时间视频。

May, 2024

ReconFusion：基于扩散先验的三维重建

使用少量照片重建现实场景的方法，通过在合成和多视图数据集上训练的扩散先验来对新视角的合成进行规范化，从而在超约束区域综合出逼真的几何和纹理，同时保持观察区域的外观。与以前的少视图 NeRF 重建方法相比，我们在各种真实世界数据集上进行了广泛评估，包括正向和 360 度场景，并展示了显著的性能改进。

Dec, 2023

自然图像文本编辑的混合扩散

本文介绍了一种基于自然语言描述和兴趣区域掩码进行本地（面向区域的）在通用自然图像中进行编辑的解决方案，利用 CLIP 预训练语言 - 图像模型指导编辑并使用扩散概率模型生成自然外观结果，以及应用扩散过程的增强进行抗击对抗攻击；通过在多个基线和相关方法上的定量和定性比较，表明该方法在整体逼真度、保护背景和匹配文本方面均优于现有解决方案，并展示了多种文本驱动的编辑应用，如添加新对象，删除 / 替换 / 修改现有对象，背景替换和图像推理。

Nov, 2021

NeRDi: 基于语言引导扩散的单视角 NeRF 综合技术作为通用图像先验

提出 NeRDi—— 一种基于 2D 扩散模型通用图像先验的单视角 NeRF 综合框架，借助自然语言模型引导扩散模型进行图像合成，结合估算的深度图的几何约束，优化重建的 NeRF 表示，进而实现高质量的全景图像生成。

Dec, 2022

DynVideo-E: 大规模运动和视角变化人为中心视频编辑中的动态 NeRF 应用

引入动态神经辐射场（NeRF）作为人物中心视频表示，将视频编辑问题简化为三维空间编辑任务，通过变形场在整个视频上进行编辑。

Oct, 2023

ViVid-1-to-3：带视频扩散模型的新视角合成

利用预训练的视频扩散模型，我们演示了一种非常简单的方法，通过合成互补视角的扫描视频来生成新视角，从而实现高度一致的新视图合成。

Dec, 2023

保留自身关联性：一种视频扩散模型的噪声先验

本文提出了一种新的视频综合方法，它使用预训练模型，并使用经过精心设计的视频噪声先验来生成高质量，时域一致的序列帧，获得了在 UCF-101 和 MSR-VTT 基准测试上 SOTA 的无需训练文本到视频结果。同时，在较小的 UCF-101 基准测试中使用更少的计算资源， $10 imes$ 更小的模型，达到了 SOTA 的视频生成质量。

May, 2023