SerumRNN: 音频 VST 效果器编程的逐步指南
我们提出了一种实时连续控制和 “掌控” 序列生成的方法,使用一组循环神经网络和动态改变模型混合权重,并使用基于字符的长短时记忆网络和手势界面演示了该方法。
Dec, 2016
本研究提出了一种基于深度学习的轻量级神经音频合成器 SING,其可以通过单一解码器从近 1000 种乐器中生成音符,并且通过新的损失函数将生成的和目标波形的对数谱距离最小化,提高了音质的感知品质。与基于 WaveNet 的最新自动编码器相比,在训练和推理方面分别快 32 倍和快 2500 倍。
Oct, 2018
本文介绍了利用神经合成器实时生成任意乐器和音符组合的音频,其具有互动性和表现力,使用 MIDI 序列进行训练,采用两阶段过程转换为声谱图,然后通过生成对抗网络(GAN)声谱图反演器将其转化为音频,发现 DDPM 方法在质量和重建等方面具有显著的优势。
Jun, 2022
本文对于近三十年来产生和实践了重要的循环神经网络(RNN),LSTM 和 BRNN 等模型的研究进行综述,旨在提供一个自成体系的最前沿阐述和历史视角,并引用了相关研究文献。
May, 2015
我们提出了一种文本到音频生成方法(CTAG),该方法利用具有仅有 78 个参数的虚拟模块化声音合成器,通过迭代更新合成器的参数,生成易于检查和调整的高质量音频渲染,其中产生的声音更抽象,捕捉了基本概念特征而非细粒度声学细节,类似于简单的素描可以生动地传达视觉概念。我们的研究结果显示 CTAG 生成的声音独特,并被视为艺术性的,同时也可以类似地识别为最近的神经音频合成模型,使其成为一种有价值且互补的工具。
Jun, 2024
SynthScribe 是一个基于多模态深度学习的全栈系统,通过解决搜索现有声音、创造全新声音和对给定声音进行有意义修改等问题,以更高层次表达用户意图。用户研究结果显示 SynthScribe 能够可靠地检索和修改声音,并能创造全新声音,拓展音乐家的创造空间。
Dec, 2023
本文介绍了简单而强大的时钟 RNN 的修改方法,该方法将隐藏层分成单独的模块,在其自己的时间粒度上处理输入,并且在测试的任务中改善了性能,速度快于标准的 RNN 模型,优于 RNN 和 LSTM 网络,出色地完成了声音信号生成和 TIMIT 口语识别任务。
Feb, 2014
从原始语音中,无监督地提取固定长度的向量表示语音片段的语义信息,通过 RNN 编码器 - 解码器模型和连续 Skip-Grams 方法进行训练,并在 13 个常用词汇相似度基准测试中获得了和 GloVe 相媲美的结果。
Nov, 2017