SerumRNN: 音频 VST 效果器编程的逐步指南

Apr, 2021

SerumRNN: 音频 VST 效果器编程的逐步指南

SerumRNN: Step by Step Audio VST Effect Programming

Christopher Mitcheltree, Hideki Koike

TL;DR提出了一种名为 SerumRNN 的系统，该系统可以为音乐制作人提供逐步应用音频效果以实现期望声音的指导，从而节省了学习 VST 合成器的时间，同时也能够学习优先考虑的效果和发现更高效的效果排序序列。

Abstract

Learning to program an audio production VST synthesizer is a time consuming process, usually obtained through inefficient trial and error and only mastered after years of experience. As an educational and creative tool for sound designers, we propose →

programming audio production sound design serumrnn vst synthesizers

发现论文，激发创造

基于循环神经网络集成的实时交互式序列生成和控制

我们提出了一种实时连续控制和 “掌控” 序列生成的方法，使用一组循环神经网络和动态改变模型混合权重，并使用基于字符的长短时记忆网络和手势界面演示了该方法。

Dec, 2016

灵活音色控制的神经音乐合成

本研究提出了一种基于神经网络的音乐合成模型，并使用具有灵活音色控制的嵌入学习来实现乐器的多样性和交互。

Nov, 2018

SING：符号到乐器神经生成器

本研究提出了一种基于深度学习的轻量级神经音频合成器 SING，其可以通过单一解码器从近 1000 种乐器中生成音符，并且通过新的损失函数将生成的和目标波形的对数谱距离最小化，提高了音质的感知品质。与基于 WaveNet 的最新自动编码器相比，在训练和推理方面分别快 32 倍和快 2500 倍。

Oct, 2018

基于频谱扩散的多乐器音乐合成

本文介绍了利用神经合成器实时生成任意乐器和音符组合的音频，其具有互动性和表现力，使用 MIDI 序列进行训练，采用两阶段过程转换为声谱图，然后通过生成对抗网络（GAN）声谱图反演器将其转化为音频，发现 DDPM 方法在质量和重建等方面具有显著的优势。

Jun, 2022

循环神经网络在序列学习中的关键评估

本文对于近三十年来产生和实践了重要的循环神经网络（RNN），LSTM 和 BRNN 等模型的研究进行综述，旨在提供一个自成体系的最前沿阐述和历史视角，并引用了相关研究文献。

May, 2015

通过合成器编程实现创造性的文本 - 音频生成

我们提出了一种文本到音频生成方法（CTAG），该方法利用具有仅有 78 个参数的虚拟模块化声音合成器，通过迭代更新合成器的参数，生成易于检查和调整的高质量音频渲染，其中产生的声音更抽象，捕捉了基本概念特征而非细粒度声学细节，类似于简单的素描可以生动地传达视觉概念。我们的研究结果显示 CTAG 生成的声音独特，并被视为艺术性的，同时也可以类似地识别为最近的神经音频合成模型，使其成为一种有价值且互补的工具。

Jun, 2024

SynthScribe：深度多模态合成器音频检索与探索工具

SynthScribe 是一个基于多模态深度学习的全栈系统，通过解决搜索现有声音、创造全新声音和对给定声音进行有意义修改等问题，以更高层次表达用户意图。用户研究结果显示 SynthScribe 能够可靠地检索和修改声音，并能创造全新声音，拓展音乐家的创造空间。

Dec, 2023

使用 LSTM 生成音乐

使用 LSTM 网络在音乐生成中得到了初步的应用，该方法是一种在深度学习中具有广泛应用的序列建模方法。

Mar, 2022

机械式 RNN

本文介绍了简单而强大的时钟 RNN 的修改方法，该方法将隐藏层分成单独的模块，在其自己的时间粒度上处理输入，并且在测试的任务中改善了性能，速度快于标准的 RNN 模型，优于 RNN 和 LSTM 网络，出色地完成了声音信号生成和 TIMIT 口语识别任务。

Feb, 2014

从语音中学习词嵌入

从原始语音中，无监督地提取固定长度的向量表示语音片段的语义信息，通过 RNN 编码器 - 解码器模型和连续 Skip-Grams 方法进行训练，并在 13 个常用词汇相似度基准测试中获得了和 GloVe 相媲美的结果。

Nov, 2017