视频扩散模型是强大的视频修复工具

Aug, 2024

视频扩散模型是强大的视频修复工具

Video Diffusion Models are Strong Video Inpainter

Minhyeok Lee, Suhwan Cho, Chajin Shin, Jungho Lee, Sunghun Yang...

TL;DR本研究解决了视频修复中光流预测不准确和噪声传播问题，提出了新颖的首帧填充视频扩散修复模型（FFF-VDI）。该模型通过将未来帧的噪声潜在信息传播到首帧的掩盖区域，有效提高了视频的自然性和时间一致性，具有显著的修复效果和潜在应用价值。

Abstract

Propagation-based Video Inpainting using Optical Flow at the pixel or feature level has recently garnered significant attention. However, it has limitations such as the inaccuracy of →

发现论文，激发创造

深度流引导视频修复

本文提出了一种新颖的视频修复方法，使用Deep Flow Completion网络综合光流场来引导像素填充，从而保证了视频内容的时空连贯性，并在DAVIS和YouTube-VOS数据集上取得了最优的修复质量和速度。

May, 2019

一种视频修复的内部学习方法

提出了一种新颖的视频修复算法，通过Deep Image Prior（DIP）推出的卷积网络，同时生成缺失的外观和光流信息，并采用一种无需先验训练的生成式方法进行修复。该方法具有良好的视觉效果和长期一致性。

Sep, 2019

隐式长程传播内部视频修复

该论文提出了一种基于内部学习策略的视频修复框架，通过拟合卷积神经网络来替换未知区域，设计了两个规则项以保留高频细节和长期时间一致性，进一步将提出的方法扩展到学习从4K视频中给定单个对象的掩码来删除视频中的对象的挑战性任务。

Aug, 2021

视频外绘的分层掩码三维扩散模型

视频外延的研究中，我们引入了一种基于遮罩的三维扩散模型，在保持填充区域的时间连续性方面，通过使用遮罩建模技术训练模型，利用多个引导帧连接多个视频剪辑推理结果，确保了时间连续性，并减少相邻帧之间的抖动。另外，我们通过交叉注意力，以全局帧为提示，引导模型获取当前视频剪辑之外的信息。同时，我们还引入了混合的由粗到细的推理流程来缓解伪影积累问题，与现有的只使用填充策略的由粗到细流程不同，我们的流程可以通过遮罩建模的双向学习，在生成稀疏帧时采用填充与插值的混合策略。实验证明我们的方法在视频外延任务中实现了最先进的结果。更多结果请参阅我们的此URL。

Sep, 2023

视频修复的内部扩散技术

视频修复方法基于扩散模型的内部学习算法，通过简化学习步骤并针对动态背景和纹理，在视频修复任务中达到了最先进的性能。

Nov, 2023

稳定的视频扩散：将潜在视频扩散模型扩展到大型数据集

我们提出了稳定的视频扩散-一种用于高分辨率的文本到视频和图像到视频生成的潜在视频扩散模型。

Nov, 2023

视频修复的流引导扩散算法

Flow-Guided Diffusion model significantly enhances temporal consistency and inpainting quality in video inpainting by employing optical flow and a model-agnostic flow-guided latent interpolation technique.

Nov, 2023

AVID：扩展视觉中任意长度视频修复的扩散模型

使用扩散模型实现了文本引导的图像修复的最新进展，而在视频领域中，关于文本引导的视频修复的研究较少。为了解决文本引导的视频修复中的三个主要挑战：时间一致性、不同修复类型的支持、以及可变的视频长度，我们提出了一种名为AVID(Any-Length Video Inpainting with Diffusion Model)的方法，它具备有效的运动模块和可调节的结构引导，并建立了一种新颖的时序多扩散采样管道，以实现任意持续时间的视频生成。通过全面的实验，我们的模型能够稳健地处理不同时长范围内的各种修复类型，并生成高质量的视频。

Dec, 2023

基于条件扩散模型的语义一致视频修复

通过将视频修复问题作为条件生成建模问题加以解决的框架，以及利用生成方法的优势，本文展示了能够生成多样化且高质量修复效果的方法，并能够在时间、空间和语义上与给定的上下文相协调地合成新内容。

Apr, 2024

InVi: 使用现成的扩散模型进行视频中的对象插入

通过使用现成的文本到图像潜在扩散模型，我们引入了InVi方法，用于在视频中插入或替换对象（称为补全），目标是控制性地操作对象并将其与背景视频无缝融合，我们采用了两个关键挑战的方法：利用补全和匹配来获得高质量的控制和融合；为了确保时序一致性，我们将扩散模型的自注意层替换为扩展注意层。实验证明，InVi方法在实现逼真的对象插入以及帧之间的一致融合和时序一致性方面优于现有方法。

Jul, 2024