非可微音频效果的样式转移
通过将端到端的样式转移效果转录为现有内容编辑工具中的特定转换的参数值,本文提出了参数化转录方法,以便于用户可以使用他们熟悉的工具模仿参考样本的样式,并通过操纵参数继续进一步的探索设计。利用现有的预训练模型计算与参考样本的感知风格距离以及使用黑盒优化来找到最小化该距离的参数,我们的实验显示,本框架可以有效地利用深度学习技术来支持计算设计。
May, 2021
使用类似于艺术风格转移的方法,从随机噪声输入信号开始迭代地使用反向传播来优化声音以符合感兴趣的预训练神经架构的筛选器输出,实现了新声音的创造,展示了两种不同的任务,达到了带宽扩展 / 压缩和从歌声到乐器的音色转移。该方法的特点是,使用相同的参数集合,单个架构可以生成这些不同的音频风格转移类型,而不需要不同的复杂手动调整的信号处理管道
Jan, 2018
本文引入了 DeepJ 这一端到端的生成模型,能够在特定的作曲家风格混合条件下进行音乐创作;该模型包括学习音乐风格和音乐动力学等多种创新方法,通过人类评价表明该模型在风格迁移方面优于 Biaxial LSTM 方法。
Jan, 2018
本研究提出了一种基于扩散模型和基于频谱图的方法实现多对多音乐风格转换,使用 GuideDiff 方法还原频谱图以提高音频质量和生成速度,在消费级 GPU 上能实时生成高质量音频。
Apr, 2024
本文提出了一种基于深度学习的摄影风格迁移方法,通过处理大量图像内容,忠实地传输参考样式。它可以成功抑制失真效果,满足各种情况下的摄影风格转移,包括时间、天气、季节和艺术编辑的转移。
Mar, 2017
本文针对深度学习在多轨混音中的应用进行了研究和探索,提出了一种基于领域的模型,使用预训练的子网络和权重共享,并采用求和 / 差分立体声损失函数进行训练,得到的可用于人工调整或完善的混音参数表现出优异的表现。这是第一篇在波形级别上从实际数据中学习多轨混音约定的方法的研究。
Oct, 2020
该论文提出了一种新方法,可以通过一组手动可调参数在训练之后实时调整关键超参数,以使用户可以修改来自相同样式 / 内容图像对的合成输出,以寻找最喜欢的风格化图像。调整这些参数与用不同超参数重新训练模型相当,还演示了如何在保持风格和内容相似的情况下随机生成多样的结果。
Nov, 2018
该研究提出了一种将时间变化的特征线性调制整合进现有的时间卷积背骨架中的方法,以更准确地捕获长时间尺度上的音频效应,从而增强深度学习方法对音频效应的建模能力。
Nov, 2022
本文介绍了解决无监督学习中可控生成序列模型的训练 - 推断不匹配问题的方法,该方法利用样式转换模块将目标样式信息转移至无关样式输入进行训练,实现了在未配对的内容和样式样本下进行训练并缓解了训练 - 推断不匹配问题,通过文本到语音合成和文本到手写合成的实验验证了提出的样式均衡方法,结果表明在用户研究中,该方法实现了与实际数据相当的风格复制分数。
Oct, 2021
在自动语音识别系统广泛应用的背景下,我们提出了一种基于用户自定义风格转换的攻击方法,结合风格转换和对抗攻击的顺序来实现对 ASR 系统的攻击,实验结果表明我们的方法能够满足用户个性化风格的需求,并在攻击中达到了 82% 的成功率,并且由于我们的用户研究保持了音频的自然性。
May, 2024