零样本无监督的基于文本的音频编辑使用 DDPM 逆转

Feb, 2024

零样本无监督的基于文本的音频编辑使用 DDPM 逆转

Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion

Hila Manor, Tomer Michaeli

TL;DR使用预训练的大型模型以零样本方式编辑信号已在图像领域取得快速发展，而这一浪潮尚未触及音频领域。本文探讨了两种用于音频信号的零样本编辑技术，利用预训练扩散模型上的 DDPM 反演。第一种技术从图像领域引入，允许基于文本进行编辑。第二种方法是一种无监督发现语义有意义的编辑方向的新方法。将其应用于音乐信号时，该方法展示出一系列在音乐上有趣的修改，从控制特定乐器的参与到对旋律的即兴演奏。示例可在本文的示例页面（https URL）上找到，代码可在这个 https URL 找到。

Abstract

editing signals using large pre-trained models, in a zero-shot manner, has recently seen rapid advancements in the image domain. However, this wave has yet to reach the audio domain. In this paper, we explore two zero-s

editing signals zero-shot editing audio signals ddpm inversion semantically meaningful editing directions

发现论文，激发创造

可编辑的 DDPM 噪声空间：反演和操作

该研究提出一种针对去噪扩散概率模型 (DDPM) 的替代性噪声空间，以便进行广泛的编辑操作，并介绍了一种反演方法，用于提取任何给定图像（真实或人工生成的）的适合进行编辑的噪声生成图。

Apr, 2023

使用 DDPM 反演和语义指导的实际图像编辑 LEDITS

LEDITS 是一种轻量级的图像编辑方法，结合了 Edit Friendly DDPM 反演技术和语义引导，能够实现对真实图像的细微和广泛编辑，而无需优化和扩展架构。

Jul, 2023

无需反转的图像编辑与自然语言

对于扩散模型，尽管反演性编辑取得了一定进展，但基于文本的图像编辑仍面临困难。本研究提出了一种无需显式反演的编辑方法（InfEdit），通过引入特殊方差调度和统一的注意力控制机制，实现了对图像的稳定编辑和真实还原，且在各种编辑任务中表现出强大的性能和快速的实时应用潜力。

Dec, 2023

基于扩散模型的图像属性编辑的零样本反演过程

零样本反演过程 (ZIP) 是一个框架，将生成的视觉参考和文本引导注入预训练的去噪扩散模型的语义潜空间中，仅使用一个小型神经网络，ZIP 在文本提示的直观控制下产生多样的内容和属性，并对真实图像上的域内和域外属性操作展现了显著的鲁棒性。与最先进的方法相比，ZIP 在提供逼真的编辑效果的同时，生成了同等质量的图像。

Aug, 2023

MusicMagus：零射手风琴文本音乐编辑通过扩散模型

通过操纵潜空间并添加额外限制，本研究介绍了一种新颖方法来编辑文本生成的音乐，实现修改特定属性（如体裁、情绪和乐器），同时保持其他方面的不变。实验结果表明，在风格和音色转移评估中，与零样本和某些监督基线相比，我们的方法表现出卓越的性能。此外，我们展示了本方法在真实音乐编辑场景中的实际适用性。

Feb, 2024

在小波域中的语音扩散模型加速：一种简单高效的方法

我们通过将生成目标定向到小波领域，将自波领域生成模型的训练和推理速度提升一倍，在语音合成任务中实现与原模型相媲美或更高的性能，并且证明了该方法的多功能性。

Feb, 2024

超越构成式推理，DDPMs 能够产生零样本插值

Denoising Diffusion Probabilistic Models (DDPMs) can effectively generate images in unexplored regions of the data distribution by composing latent factors learned from separate subsets, demonstrated through zero-shot interpolation for attributes like smiling faces.

May, 2024

基于扩散的文本转语音模型的语义潜空间

在语音合成领域中，噪声扩散模型（Denoising Diffusion Models，DDMs）的整合应用日益增多。尽管其音频质量出色，但其语义能力的程度未知，并且控制其合成语音的音色属性仍然具有挑战性。受到图像合成的最新进展的启发，我们探索了冻结 TTS 模型的潜在空间，该空间由 DDM 的降噪器的潜在瓶颈激活组成。我们发现这个空间包含丰富的语义信息，并提出了一些新方法来在其中找到语义方向，包括有监督和无监督的方法。然后，我们演示了如何利用这些方法进行即插即用的音频编辑，无需进一步训练、架构更改或数据要求。我们提供了编辑音频的语义和声学质量的证据，并提供了补充样本：[链接]。

Feb, 2024

镜面扩散：通过提示重述和更多方法稳定零样本图像翻译过程

最近，文字到图像扩散模型成为图像处理领域的一种新范式，包括内容生成、图像恢复和图像到图像的转换。本文提出了一种 Prompt 重新描述策略，以实现扩散模型中源图像和重构图像的镜像效应，从而实现准确的零样本图像翻译。

Jan, 2024

使用引导扩散模型编辑真实图像的无文本倒置技术

本文介绍了一种精确的图片逆向生成技术，实现了基于文本的图片编辑，通过引入 Pivotal inversion 和 NULL-text optimization 技术，以条件嵌入为导向，避免了模型权重的繁琐调整，并在真实照片上进行了高保真度编辑。

Nov, 2022