视频外绘的分层掩码三维扩散模型

MMSep, 2023

视频外绘的分层掩码三维扩散模型

Hierarchical Masked 3D Diffusion Model for Video Outpainting

Fanda Fan, Chaoxu Guo, Litong Gong, Biao Wang, Tiezheng Ge...

TL;DR视频外延的研究中，我们引入了一种基于遮罩的三维扩散模型，在保持填充区域的时间连续性方面，通过使用遮罩建模技术训练模型，利用多个引导帧连接多个视频剪辑推理结果，确保了时间连续性，并减少相邻帧之间的抖动。另外，我们通过交叉注意力，以全局帧为提示，引导模型获取当前视频剪辑之外的信息。同时，我们还引入了混合的由粗到细的推理流程来缓解伪影积累问题，与现有的只使用填充策略的由粗到细流程不同，我们的流程可以通过遮罩建模的双向学习，在生成稀疏帧时采用填充与插值的混合策略。实验证明我们的方法在视频外延任务中实现了最先进的结果。更多结果请参阅我们的此 URL。

Abstract

video outpainting aims to adequately complete missing areas at the edges of video frames. Compared to image outpainting, it presents an additional challenge as the model should maintain the temporal consistency o

video outpainting masked 3d diffusion model temporal consistency coarse-to-fine inference pipeline state-of-the-art results

发现论文，激发创造

基于条件扩散模型的语义一致视频修复

通过将视频修复问题作为条件生成建模问题加以解决的框架，以及利用生成方法的优势，本文展示了能够生成多样化且高质量修复效果的方法，并能够在时间、空间和语义上与给定的上下文相协调地合成新内容。

Apr, 2024

视频修复的内部扩散技术

视频修复方法基于扩散模型的内部学习算法，通过简化学习步骤并针对动态背景和纹理，在视频修复任务中达到了最先进的性能。

Nov, 2023

AVID：扩展视觉中任意长度视频修复的扩散模型

使用扩散模型实现了文本引导的图像修复的最新进展，而在视频领域中，关于文本引导的视频修复的研究较少。为了解决文本引导的视频修复中的三个主要挑战：时间一致性、不同修复类型的支持、以及可变的视频长度，我们提出了一种名为 AVID (Any-Length Video Inpainting with Diffusion Model) 的方法，它具备有效的运动模块和可调节的结构引导，并建立了一种新颖的时序多扩散采样管道，以实现任意持续时间的视频生成。通过全面的实验，我们的模型能够稳健地处理不同时长范围内的各种修复类型，并生成高质量的视频。

Dec, 2023

视频修复的流引导扩散算法

Flow-Guided Diffusion model significantly enhances temporal consistency and inpainting quality in video inpainting by employing optical flow and a model-agnostic flow-guided latent interpolation technique.

Nov, 2023

Inpaint3D: 使用 2D 修复扩散生成 3D 场景内容

本文介绍了一种新颖的方法，通过将 2D 扩散模型提炼为学习的 3D 场景表示（例如 NeRF），对给定的有掩模的多视图图像进行 3D 区域修补。

Dec, 2023

深度流引导视频修复

本文提出了一种新颖的视频修复方法，使用 Deep Flow Completion 网络综合光流场来引导像素填充，从而保证了视频内容的时空连贯性，并在 DAVIS 和 YouTube-VOS 数据集上取得了最优的修复质量和速度。

May, 2019

深度视频修复

本文提出了一种基于深度学习的快速视频修复网络，结合图像编解码模型，利用邻帧信息综合填充未知视频区域，并运用循环反馈和时间存储模块确保输出的时空连续性，与之前的视频修复方法相比，其结果更为语义正确和时空平滑，且可用于视频重定向任务并生成优质视觉效果。

May, 2019

RefFusion：3D 场景修复的参考适应扩散模型

我们提出了一种基于多尺度个性化图像修复扩散模型的新型三维修复方法 RefFusion，通过引入参考图像，实现了对修复内容的显式控制，从而在保持高可控性的同时取得了最先进的物体去除效果。

Apr, 2024

使用扩展的注意力实现视频中的时态一致的对象编辑

使用预训练的图像修复扩散模型，通过替换自注意力模块以创建帧级依赖关系，我们提出了一种编辑视频的方法，以确保编辑信息在所有视频帧中保持一致，从而在对象重定向、对象替换和对象移除等多个视频编辑任务中展示了该策略的卓越性能。

Jun, 2024

视频预测与填充的扩散模型

本文提出了一种名为 RaMViD 的随机掩码视频扩散模型，利用 3D 卷积将图像扩散模型扩展到视频领域，并引入了一种新的训练条件技术，通过改变所用的掩码，能够实现视频预测、填充和上采样，通过评估 RaMViD 在两个视频预测数据集上的表现，本文证明了该模型达到了最新水平，并提供了高分辨率视频的数据。

Jun, 2022