CONMOD：可控神经框架模拟效果

Jun, 2024

CONMOD: Controllable Neural Frame-based Modulation Effects

Gyubin Lee, Hounsu Kim, Junwon Lee, Juhan Nam

TL;DR利用深度学习模型，我们引入了可控的神经基准调制效果 (CONMOD) 来模拟各种低频振荡驱动的效果，并通过控制参数实现对产出的操作，同时在学习两种独特相移效果的连续嵌入空间方面超越了既有研究，为提升现代低频振荡驱动音频效果的创造力提供了机会。

Abstract

deep learning models have seen widespread use in modelling LFO-driven audio effects, such as phaser and flanger. Although existing neural architectures exhibit high-quality emulation of individual effects, they do not possess the capability to manipulate the output via →

deep learning models lfo-driven audio effects controllable neural frame-based modulation effects (conmod)control parameters phaser effects

发现论文，激发创造

基于低频振荡器的音频效果的调制提取

本文提出了一个基于神经网络的提取任意低频振荡信号的框架，该框架能够跨越多种数字音频效果器、参数设置和乐器配置，提取不受限制的低频振荡信号。此外，本文还展示了如何将提取模型与一个简单的处理网络相结合，仅使用干燥信号和混响信号对未见过的模拟或数字低频振荡驱动音频效果进行端到端的建模。

May, 2023

用时间变化的特征调制建模黑盒音频效果

该研究提出了一种将时间变化的特征线性调制整合进现有的时间卷积背骨架中的方法，以更准确地捕获长时间尺度上的音频效应，从而增强深度学习方法对音频效应的建模能力。

Nov, 2022

基于帧级频谱处理的相位器效果可微灰盒建模

本文提出了一种基于可微分数字信号处理的模型，用于建模像移相器这样控制信号具有低频震荡的调制音效，模型以时间变化频率域滤波器为基础，通过短帧处理来实现。研究发现最佳的帧长与目标效果的速率和瞬态衰减时间有关，但在推理时可以改变帧长而不会对准确性产生显着影响。

Jun, 2023

通过生物启发的随机组调整进行任务适应

脑表示必须在一般性和适应性之间取得平衡，神经编码捕捉世界的一般统计规律，同时根据当前目标动态调整，其中一方面的适应性是基于任务相关性随机共调制神经元的增益，这些波动然后向下传播以指导决策。我们通过随机增益调制对卷积网络进行微调，显示优于确定性增益调制，在 CelebA 数据集上达到最先进的结果。为了更好地理解支持此改进的机制，我们使用 Cifar-100 研究了微调性能如何受到架构的影响。总体而言，我们的结果表明随机共调制可以增强多任务学习中的学习效率和性能，无需额外的可学习参数，为开发更具灵活性和鲁棒性的智能系统提供了一个有希望的新方向。

Nov, 2023

灵活音色控制的神经音乐合成

本研究提出了一种基于神经网络的音乐合成模型，并使用具有灵活音色控制的嵌入学习来实现乐器的多样性和交互。

Nov, 2018

基于频率调制的可调和可解释声音合成的神经架构搜索

利用神经架构搜索技术 (NAS)，本研究提出了一种不同 iable frequency modulation (FM) 合成器，该合成器可自动地从声音中发展出可以调的合成器，并且可以实现更好的效果比手工合成器。

May, 2023

使用端到端深度神经网络建模非线性音频效果

本文使用深度学习架构，旨在找到通用的端到端深度神经网络来对非线性音频效果进行建模，进而探讨不同乐器之间的泛化能力。

Oct, 2018

通过模块化和物理归纳偏差学习具有泛化动力学的 ModLaNets

提出了一种具有模块化和物理归纳偏差的结构神经网络框架，即 Modular Lagrangian Network (ModLaNet)，它利用模块化来建模每个元素的能量，并通过拉格朗日力学构建目标动力学系统，从而可以从简单系统的动力学中学习并扩展到更复杂的系统，以提高其他相关物理感知神经网络不具备的数据效率和准确性性能。在对双摆和三体系统进行建模的同时，还将模型重新组织为扩展模型，用于模拟多摆和多体系统，展示了该框架的有趣的可重用性特征。

Jun, 2022

虚拟模拟音频效果建模的循环神经网络比较研究

通过比较 State Space 模型、Linear Recurrent Units 和 Long Short Term Memory 网络在模拟音频效果方面的性能，本文研究了近期机器学习进展在虚拟类比建模中的应用，包括信号历史编码、能量包络、频率内容和瞬态等方面的准确度。结果表明，Long Short Term Memory 网络在模拟失真和均衡器方面的准确度较高，而 State Space 模型在饱和和压缩方面的模拟能力超过其他方法。对于长时间变化特性，State Space 模型展现了最高的准确度。Long Short Term Memory 网络和 Linear Recurrent Unit 网络则更容易引入音频伪像。

May, 2024

NeuralDPS: 基于多频激励的神经确定性加随机模型用于噪声可控波形生成

本文提出了一种名为 NeuralDPS 的新型神经语音编码器，通过使用多带激励策略，控制噪声组分，调整语音的信噪比和扩大频带，该编码器可以在保持高语音质量的同时提高合成效率和降低噪声，达到与 WaveNet 相似的性能且至少比 WaveNet 合成速度快 280 倍。

Mar, 2022