非可微音频效果的样式转移

Sep, 2023

Style Transfer for Non-differentiable Audio Effects

Kieran Grant

TL;DR我们提出了一种深度学习方法用于音频制作风格匹配，可以与大多数常用框架中实现的效果一起使用，只要考虑的参数在连续范围内，能够通过逻辑编码音色信息来进行风格匹配。

Abstract

digital audio effects are widely used by audio engineers to alter the acoustic and temporal qualities of audio data. However, these effects can have a large number of parameters which can make them difficult to learn for beginners and hamper creativity for professionals. Recently, ther

digital audio effects deep learning style transfer audio production timbral information

发现论文，激发创造

利用预先训练的知觉度量参数化风格转移效果的工具和领域不可知化

通过将端到端的样式转移效果转录为现有内容编辑工具中的特定转换的参数值，本文提出了参数化转录方法，以便于用户可以使用他们熟悉的工具模仿参考样本的样式，并通过操纵参数继续进一步的探索设计。利用现有的预训练模型计算与参考样本的感知风格距离以及使用黑盒优化来找到最小化该距离的参数，我们的实验显示，本框架可以有效地利用深度学习技术来支持计算设计。

May, 2021

音频谱图的神经风格转移

使用类似于艺术风格转移的方法，从随机噪声输入信号开始迭代地使用反向传播来优化声音以符合感兴趣的预训练神经架构的筛选器输出，实现了新声音的创造，展示了两种不同的任务，达到了带宽扩展 / 压缩和从歌声到乐器的音色转移。该方法的特点是，使用相同的参数集合，单个架构可以生成这些不同的音频风格转移类型，而不需要不同的复杂手动调整的信号处理管道

Jan, 2018

DeepJ: 风格特定音乐生成

本文引入了 DeepJ 这一端到端的生成模型，能够在特定的作曲家风格混合条件下进行音乐创作；该模型包括学习音乐风格和音乐动力学等多种创新方法，通过人类评价表明该模型在风格迁移方面优于 Biaxial LSTM 方法。

Jan, 2018

音乐风格转换的扩散模型

本研究提出了一种基于扩散模型和基于频谱图的方法实现多对多音乐风格转换，使用 GuideDiff 方法还原频谱图以提高音频质量和生成速度，在消费级 GPU 上能实时生成高质量音频。

Apr, 2024

深度照片风格转移

本文提出了一种基于深度学习的摄影风格迁移方法，通过处理大量图像内容，忠实地传输参考样式。它可以成功抑制失真效果，满足各种情况下的摄影风格转移，包括时间、天气、季节和艺术编辑的转移。

Mar, 2017

使用可微的混音控制台进行多音轨自动混音的神经音效

本文针对深度学习在多轨混音中的应用进行了研究和探索，提出了一种基于领域的模型，使用预训练的子网络和权重共享，并采用求和 / 差分立体声损失函数进行训练，得到的可用于人工调整或完善的混音参数表现出优异的表现。这是第一篇在波形级别上从实际数据中学习多轨混音约定的方法的研究。

Oct, 2020

可调实时风格迁移

该论文提出了一种新方法，可以通过一组手动可调参数在训练之后实时调整关键超参数，以使用户可以修改来自相同样式 / 内容图像对的合成输出，以寻找最喜欢的风格化图像。调整这些参数与用不同超参数重新训练模型相当，还演示了如何在保持风格和内容相似的情况下随机生成多样的结果。

Nov, 2018

用时间变化的特征调制建模黑盒音频效果

该研究提出了一种将时间变化的特征线性调制整合进现有的时间卷积背骨架中的方法，以更准确地捕获长时间尺度上的音频效应，从而增强深度学习方法对音频效应的建模能力。

Nov, 2022

风格均衡：可控生成序列模型的无监督学习

本文介绍了解决无监督学习中可控生成序列模型的训练 - 推断不匹配问题的方法，该方法利用样式转换模块将目标样式信息转移至无关样式输入进行训练，实现了在未配对的内容和样式样本下进行训练并缓解了训练 - 推断不匹配问题，通过文本到语音合成和文本到手写合成的实验验证了提出的样式均衡方法，结果表明在用户研究中，该方法实现了与实际数据相当的风格复制分数。

Oct, 2021

通过音频风格转换评估自动语音识别系统的鲁棒性

在自动语音识别系统广泛应用的背景下，我们提出了一种基于用户自定义风格转换的攻击方法，结合风格转换和对抗攻击的顺序来实现对 ASR 系统的攻击，实验结果表明我们的方法能够满足用户个性化风格的需求，并在攻击中达到了 82% 的成功率，并且由于我们的用户研究保持了音频的自然性。

May, 2024