MaskINT：通过插值非自回归蒙版变换的视频编辑

Dec, 2023

MaskINT：通过插值非自回归蒙版变换的视频编辑

MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers

Haoyu Ma, Shahin Mahdizadehaghdam, Bichen Wu, Zhipeng Fan, Yuchao Gu...

TL;DR这项研究通过在文本为基础的视频编辑过程中分为两个阶段，利用现有的文本到图像扩散模型同时编辑一些关键帧，并引入了一种称为 MaskINT 的高效模型，该模型建立在非自回归的掩膜式生成变压器上，在关键帧之间进行帧插值，从中间帧提供的结构指导中受益。我们进行了一系列实验证明了 MaskINT 相对于其他基于扩散模型的方法的有效性和高效性。该研究为基于文本的视频编辑提供了实用的解决方案，并展示了非自回归的掩膜式生成变压器在该领域中的潜力。

Abstract

Recent advances in generative ai have significantly enhanced image and video editing, particularly in the context of text prompt control. State-of-the-art approaches predominantly rely on →

generative ai image and video editing text prompt control diffusion models non-autoregressive masked generative transformers

发现论文，激发创造

通过混合掩膜信息融合提升文本到图像编辑

基于扩散模型，本文旨在系统性地改进文本引导的图像编辑技术，以解决其局限性，通过在模型的自注意机制中引入人为注释来限制编辑范围，并将编辑后的图像与源图像和构建的中间图像进行融合，实验证明所提出的 ``MaSaFusion'' 显著提高了现有的文本到图像编辑技术。

May, 2024

FusionFrames：文本到视频生成流程的高效架构方案

本研究提出了一种基于文本到图像扩散模型的新的两阶段潜在扩散文本到视频生成架构，该架构对关键帧合成和插值帧生成进行建模，并通过比较不同的时间条件方法和视频解码方案进行实验评估，最终在视频生成质量方面取得了较好的结果。

Nov, 2023

MaskGIT: 掩码生成式图像转换器

本文提出了一种新的图像合成模型 ——MaskGIT，采用双向 transformer 解码器，通过学习预测随机遮罩的 tokens 并在推理时同时生成全部 tokens，迭代地改进图像以获得高保真度和高分辨率的生成图像，并在 ImageNet 数据集上优于现有模型，同时通过自回归解码加速达到 64 倍，还可轻松扩展到各种图像编辑任务中。

Feb, 2022

Dreamix：视频传播模型是通用视频编辑器

该研究提出了一种基于视频扩散模型的图像和视频编辑方法，利用时序信息和高分辨率信息生成与指导文本匹配的视频，并以完全时间关注和时间关注掩码联合完成模型的微调，实现了较好的编辑效果。

Feb, 2023

掩蔽变换器应用于扩散模型快速训练

本论文提出了一种使用掩码 Transformer 训练大型扩散模型的高效方法，实现了在不牺牲生成性能的情况下，仅使用 31％的训练时间达到与最先进的扩散变压器模型相同性能的效果。

Jun, 2023

重访非自回归 Transformer 用于高效图像合成

通过重新评估非自回归变压器的训练和推理策略设计，本文提出了一种名为 AutoNAT 的方法，该方法在自动框架中直接解决最优策略，从而大幅提升了非自回归变压器的性能，并且能够与最新的扩散模型在显著降低推理成本的同时进行可比较的表现。

Jun, 2024

掩码非自回归图像字幕生成

本文提出了一种基于遮码机制的非自回归解码模型，用于生成图像标题。实验结果表明，该模型可以更有效地保留语义内容并生成更多样化的标题。

Jun, 2019

MaskDiffusion：使用条件掩蔽提升文本与图像的一致性

优化了扩散模型中文本和图像的一致性，通过引入自适应掩码调整文本令牌对图像特征的贡献，提高了合成图像的质量。

Sep, 2023

基于图形提示的 MIDI 受控音乐生成：面向基于图像的扩散修复

通过用户友好的图形界面，本研究探讨了使用 Hourglass Diffusion Transformer（HDiT）模型在 MIDI 钢琴卷帘图像上进行盖章区域修复的方法，并通过在特定区域添加额外噪音来增强音符生成。该方法通过像素空间的线性缩放以提供直观和可解释的控制，而不需要操作预训练自编码器提供的压缩潜在空间，并展示了其在旋律、伴奏和延续音符填充方面的成果，同时帮助增加音符密度以生成符合用户规格要求的音乐结构，甚至在这些结构超出训练数据分布的情况下仍然有效。

Jul, 2024

TokenFlow：一致扩散特征用于一致视频编辑

基于文本驱动的视频编辑，我们介绍了一个利用文本到图像扩散模型的框架，生成高质量视频的同时保留输入视频的空间布局和运动，实现编辑视频的一致性。

Jul, 2023