APLA：附加扰动的潜在噪声对抗训练提高一致性

Aug, 2023

APLA：附加扰动的潜在噪声对抗训练提高一致性

APLA: Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency

Yupu Yao, Shangqi Deng, Zihan Cao, Harry Zhang, Liang-Jian Deng

TL;DR基于扩散模型，我们提出了一种新型的基于文本到视频生成网络结构，名为增加扰动的潜在噪声与对抗训练（APLA）。该方法仅需要一个视频作为输入，并建立在预训练的稳定扩散网络上。我们引入了一个名为视频生成变换器（VGT）的辅助组件，用于从输入中提取扰动，从而在时间预测过程中改善不一致的像素。我们利用变换器和卷积的混合架构来弥补时间上的复杂性，从而提高视频内不同帧之间的一致性。实验证明，在生成的视频的一致性方面，我们取得了明显的定量和定性改进。

Abstract

diffusion models have exhibited promising progress in video generation. However, they often struggle to retain consistent details within local regions across frames. One underlying cause is that traditional

diffusion models video generation self-attention mechanism text-to-video generation transformers

发现论文，激发创造

MoLA: 运动生成与编辑的潜在扩散增强对抗训练

该论文提出了一种名为 MoLA 的快速高质量运动生成框架，能够处理多项编辑任务，并利用变分自动编码器和潜在扩散模型实现高质量的快速生成。此外，还应用了一种无需训练的引导生成框架来实现各种编辑任务，从而证明了对抗性学习在文本到运动生成中的有效性，并展示了编辑框架在运动领域中的适用性。

Jun, 2024

一种适用于音视频生成的多功能扩散变压器

通过使用新的训练方法和变量扩散时间步长，我们提出了一种基于转换器的音视频潜在扩散模型，可在任务不可知的情况下进行训练，并在推理过程中实现各种音视频生成任务，克服基线模型在生成条件输入上的时间和感知上的不连贯样本的局限性。

May, 2024

用于生成高保真长视频的潜在视频扩散模型

该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架，可在有限的计算预算下生成更真实、更长的视频，同时提供了大规模文本到视频生成的扩展应用。

Nov, 2022

扩散模型生成逼真的视频

通过扩散建模，我们提出了一种基于转换器的 W.A.L.T 方法，用于逼真视频生成。我们采用了两个关键设计决策：一是使用因果编码器在统一的潜在空间中联合压缩图像和视频，实现跨模态的训练和生成；二是为了记忆和训练效率，我们使用了一个针对联合空间和时空生成建模的窗口注意力架构。这些设计决策使我们能够在已知的视频 (UCF-101 和 Kinetics-600) 和图像 (ImageNet) 生成基准上达到最先进的性能，而不使用分类器引导。最后，我们还训练了三个模型的串联，用于文本到视频生成任务，包括基本的潜在视频扩散模型和两个视频超分辨率扩散模型，以每秒 8 帧生成 512 x 896 分辨率的视频。

Dec, 2023

实用的即插即用扩散模型

本文提出了一种可行的指导框架，称为实用插播（PPAP），该框架利用参数高效的微调和不需要标记的数据传输来利用多个专家，每个专家都专门针对特定噪音范围并指导扩散的反转过程。通过图像类别有条件的生成实验，证明了该方法可以成功地引导扩散，且小可训练参数和没有标记的数据。最后，通过我们的框架，我们展示了图像分类器，深度估计器和语义分割模型可以以插播的方式指导公开可用的 GLIDE。

Dec, 2022

LEAT: 通过潜在的集成攻击在现实场景中实现深度伪造的鲁棒破坏

本文提出了一种名为 “LEAT” 的简单且有效的深度伪造干扰方法，该方法攻击独立的潜在编码过程，尽管给定目标属性，也可以生成扰动输出图像。此外，我们介绍了一种规范化渐变合奏策略，用于迭代渐变攻击，旨在同时攻击各种类型的深度伪造模型。实验结果表明，相对于先前的方法，我们的方法在现实中干扰深度伪造的成功率更高。

Jul, 2023

输入扰动减少扩散模型中的暴露偏差

通过加入输入扰动以模拟推理时间预测误差，本文提出了一种简单而有效的训练正则化方法，以减轻 Denoising Diffusion Probabilistic Models 模型中的错误积累现象，并在维持较高的采样质量的同时，显著减少训练和推理时间。

Jan, 2023

通过局部和全局潜在分布提高模型的鲁棒性

通过全局流形的视角考虑深度神经网络对抗攻击的模型鲁棒性问题，提出了一种新的对抗训练方法 ATLD，该方法在不受监督的情况下，利用了本地和全局潜在信息，通过对抗游戏生成潜在流形对抗性实例，保留了流形的局部和全局信息，具有良好的鲁棒性，实验结果表明该方法在多个数据集上显著优于现有技术。

Jul, 2021

使用生成模型的可传递通用对抗扰动

本文提出了一种针对深度网络易受对抗扰动攻击的问题的方法，使用预训练网络生成图像无关对抗扰动（UAPs），并通过在源模型的第一层仅关注对抗能量的损失，提高了 UAPs 的传递性，并在实验中展示了该方法的优越性。

Oct, 2020

高分辨率视频的时间一致性扩展扩散模型

通过文本引导的潜在扩散框架，实现视频升尺度，并在保持时域一致性和质量平衡之间提供更大灵活性。

Dec, 2023