InVi: 使用现成的扩散模型进行视频中的对象插入

Jul, 2024

InVi: 使用现成的扩散模型进行视频中的对象插入

InVi: Object Insertion In Videos Using Off-the-Shelf Diffusion Models

Nirat Saini, Navaneeth Bodla, Ashish Shrivastava, Avinash Ravichandran, Xiao Zhang...

TL;DR通过使用现成的文本到图像潜在扩散模型，我们引入了InVi方法，用于在视频中插入或替换对象（称为补全），目标是控制性地操作对象并将其与背景视频无缝融合，我们采用了两个关键挑战的方法：利用补全和匹配来获得高质量的控制和融合；为了确保时序一致性，我们将扩散模型的自注意层替换为扩展注意层。实验证明，InVi方法在实现逼真的对象插入以及帧之间的一致融合和时序一致性方面优于现有方法。

Abstract

We introduce invi, an approach for inserting or replacing objects within videos (referred to as inpainting) using off-the-shelf, text-to-image latent diffusion models. →

发现论文，激发创造

InFusion：用于多概念零样本文本视频编辑的注入和注意力融合

使用InFusion框架，基于大型预训练图像扩散模型进行零样例基于文本的视频编辑，以实现丰富的概念编辑、时间一致性和连贯性。

Jul, 2023

iNVS：借用扩散修复算法实现新视角生成

从单一源图像生成一致的新视图的方法，利用单目深度估计器将源视图的可见像素转移到目标视图，并通过基于外极线的新的屏蔽机制进一步改善方法的质量，从而在各种对象上实现零样本新视图合成。

Oct, 2023

视频修复的内部扩散技术

视频修复方法基于扩散模型的内部学习算法，通过简化学习步骤并针对动态背景和纹理，在视频修复任务中达到了最先进的性能。

Nov, 2023

视频修复的流引导扩散算法

Flow-Guided Diffusion model significantly enhances temporal consistency and inpainting quality in video inpainting by employing optical flow and a model-agnostic flow-guided latent interpolation technique.

Nov, 2023

AVID：扩展视觉中任意长度视频修复的扩散模型

使用扩散模型实现了文本引导的图像修复的最新进展，而在视频领域中，关于文本引导的视频修复的研究较少。为了解决文本引导的视频修复中的三个主要挑战：时间一致性、不同修复类型的支持、以及可变的视频长度，我们提出了一种名为AVID(Any-Length Video Inpainting with Diffusion Model)的方法，它具备有效的运动模块和可调节的结构引导，并建立了一种新颖的时序多扩散采样管道，以实现任意持续时间的视频生成。通过全面的实验，我们的模型能够稳健地处理不同时长范围内的各种修复类型，并生成高质量的视频。

Dec, 2023

基于文本引导扩散模型的显著对象感知背景生成

通过稳定扩散和控制网络结构，本文引入了一种适应显著物体扩展任务的修补扩散模型，通过定量和定性结果证明了该方法相比于稳定扩散2.0修补具有更好的效果，可以减少显著物体的边界扩展程度。

Apr, 2024

学习通过首先移除图像对象来添加图像对象的绘画

通过利用分割蒙版数据集和在蒙版内修复的修复模型，我们可以实现自动逆向修复过程，将对象添加到图像中，在没有用户提供的输入蒙版的情况下，提供了一种无缝地根据文本指令添加对象的方法。

Apr, 2024

基于条件扩散模型的语义一致视频修复

通过将视频修复问题作为条件生成建模问题加以解决的框架，以及利用生成方法的优势，本文展示了能够生成多样化且高质量修复效果的方法，并能够在时间、空间和语义上与给定的上下文相协调地合成新内容。

Apr, 2024

使用扩展的注意力实现视频中的时态一致的对象编辑

使用预训练的图像修复扩散模型，通过替换自注意力模块以创建帧级依赖关系，我们提出了一种编辑视频的方法，以确保编辑信息在所有视频帧中保持一致，从而在对象重定向、对象替换和对象移除等多个视频编辑任务中展示了该策略的卓越性能。

Jun, 2024

视频扩散模型是强大的视频修复工具

本研究解决了视频修复中光流预测不准确和噪声传播问题，提出了新颖的首帧填充视频扩散修复模型（FFF-VDI）。该模型通过将未来帧的噪声潜在信息传播到首帧的掩盖区域，有效提高了视频的自然性和时间一致性，具有显著的修复效果和潜在应用价值。

Aug, 2024