InFusion：用于多概念零样本文本视频编辑的注入和注意力融合

Jul, 2023

InFusion：用于多概念零样本文本视频编辑的注入和注意力融合

InFusion: Inject and Attention Fusion for Multi Concept Zero Shot Text based Video Editing

Anant Khandelwal

TL;DR使用 InFusion 框架，基于大型预训练图像扩散模型进行零样例基于文本的视频编辑，以实现丰富的概念编辑、时间一致性和连贯性。

Abstract

Large text-to-image diffusion models have achieved remarkable success in generating diverse high-quality images that are closely aligned with text prompt. But, when these models applied to video the main challenge is to ensure →

text-to-image diffusion models video editing infusion framework temporal consistency coherent editing

发现论文，激发创造

VidEdit：零样本和空间感知的文本驱动视频编辑

本研究介绍了一种名为 VidEdit 的零镜头文本视频编辑方法，利用扩散模型结合语义分割器和边缘检测器实现了强的时间和空间上的一致性，证明在 DAVIS 数据集上，VidEdit 在语义保真度、图像保存和时间一致性方面优于现有的方法，同时仅需大约一分钟即可处理一个视频。

Jun, 2023

零样本文本指导的视频到视频转换

本研究提出了一种基于零样本文本引导的视频到视频转换框架来适应图像模型到视频的应用，在形状、纹理和颜色上强制执行分层的跨帧约束，实现低成本下的全局样式和局部纹理的时空一致性。

Jun, 2023

快速个性化的文本到图像合成与注意力注入

我们提出了一种有效且快速的方法，可在不进行任何微调的情况下生成个性化图像，并保持扩散模型内在的文本到图像生成能力。通过操作原始扩散模型的交叉注意力和自注意力层，将自定义概念合并到生成图像中，以生成与文本描述相匹配的个性化图像。综合实验突出了我们方法的优越性。

Mar, 2024

广角、3D 场景和视频的统一编辑通过解耦的自注意注入

通过利用基本的二维图像文本到图像扩散模型，我们提出了一种新颖的统一编辑框架，结合了单一图像注入自注意力的编辑和共享注意力的视频编辑的优势，通过共享自注意力特征在参考和连续图像采样过程中，设计了一种采样方法，以在保持语义一致性的同时实现连续图像的编辑。实验结果表明，我们的方法能够在多种模态包括 3D 场景、视频和全景图像中进行编辑。

May, 2024

通过混合掩膜信息融合提升文本到图像编辑

基于扩散模型，本文旨在系统性地改进文本引导的图像编辑技术，以解决其局限性，通过在模型的自注意机制中引入人为注释来限制编辑范围，并将编辑后的图像与源图像和构建的中间图像进行融合，实验证明所提出的 ``MaSaFusion'' 显著提高了现有的文本到图像编辑技术。

May, 2024

使用扩展的注意力实现视频中的时态一致的对象编辑

使用预训练的图像修复扩散模型，通过替换自注意力模块以创建帧级依赖关系，我们提出了一种编辑视频的方法，以确保编辑信息在所有视频帧中保持一致，从而在对象重定向、对象替换和对象移除等多个视频编辑任务中展示了该策略的卓越性能。

Jun, 2024

TokenFlow：一致扩散特征用于一致视频编辑

基于文本驱动的视频编辑，我们介绍了一个利用文本到图像扩散模型的框架，生成高质量视频的同时保留输入视频的空间布局和运动，实现编辑视频的一致性。

Jul, 2023

基于扩散模型的图像属性编辑的零样本反演过程

零样本反演过程 (ZIP) 是一个框架，将生成的视觉参考和文本引导注入预训练的去噪扩散模型的语义潜空间中，仅使用一个小型神经网络，ZIP 在文本提示的直观控制下产生多样的内容和属性，并对真实图像上的域内和域外属性操作展现了显著的鲁棒性。与最先进的方法相比，ZIP 在提供逼真的编辑效果的同时，生成了同等质量的图像。

Aug, 2023

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

Slicedit: 使用时空切片的文本到图像传扩模型的零样本视频编辑

通过利用预训练的 T2I 扩散模型处理空间和时空切片，我们提出了一种基于文本的视频编辑方法 Slicedit，能够生成保留原始视频结构和动作并满足目标文本的视频，相对于现有竞争方法，我们证明了 Slicedit 在编辑各种真实世界视频方面的明显优势。

May, 2024