CONMOD:可控神经框架模拟效果
本文提出了一个基于神经网络的提取任意低频振荡信号的框架,该框架能够跨越多种数字音频效果器、参数设置和乐器配置,提取不受限制的低频振荡信号。此外,本文还展示了如何将提取模型与一个简单的处理网络相结合,仅使用干燥信号和混响信号对未见过的模拟或数字低频振荡驱动音频效果进行端到端的建模。
May, 2023
该研究提出了一种将时间变化的特征线性调制整合进现有的时间卷积背骨架中的方法,以更准确地捕获长时间尺度上的音频效应,从而增强深度学习方法对音频效应的建模能力。
Nov, 2022
本文提出了一种基于可微分数字信号处理的模型,用于建模像移相器这样控制信号具有低频震荡的调制音效,模型以时间变化频率域滤波器为基础,通过短帧处理来实现。研究发现最佳的帧长与目标效果的速率和瞬态衰减时间有关,但在推理时可以改变帧长而不会对准确性产生显着影响。
Jun, 2023
脑表示必须在一般性和适应性之间取得平衡,神经编码捕捉世界的一般统计规律,同时根据当前目标动态调整,其中一方面的适应性是基于任务相关性随机共调制神经元的增益,这些波动然后向下传播以指导决策。我们通过随机增益调制对卷积网络进行微调,显示优于确定性增益调制,在 CelebA 数据集上达到最先进的结果。为了更好地理解支持此改进的机制,我们使用 Cifar-100 研究了微调性能如何受到架构的影响。总体而言,我们的结果表明随机共调制可以增强多任务学习中的学习效率和性能,无需额外的可学习参数,为开发更具灵活性和鲁棒性的智能系统提供了一个有希望的新方向。
Nov, 2023
利用神经架构搜索技术 (NAS),本研究提出了一种不同 iable frequency modulation (FM) 合成器,该合成器可自动地从声音中发展出可以调的合成器,并且可以实现更好的效果比手工合成器。
May, 2023
提出了一种具有模块化和物理归纳偏差的结构神经网络框架,即 Modular Lagrangian Network (ModLaNet),它利用模块化来建模每个元素的能量,并通过拉格朗日力学构建目标动力学系统,从而可以从简单系统的动力学中学习并扩展到更复杂的系统,以提高其他相关物理感知神经网络不具备的数据效率和准确性性能。在对双摆和三体系统进行建模的同时,还将模型重新组织为扩展模型,用于模拟多摆和多体系统,展示了该框架的有趣的可重用性特征。
Jun, 2022
通过比较 State Space 模型、Linear Recurrent Units 和 Long Short Term Memory 网络在模拟音频效果方面的性能,本文研究了近期机器学习进展在虚拟类比建模中的应用,包括信号历史编码、能量包络、频率内容和瞬态等方面的准确度。结果表明,Long Short Term Memory 网络在模拟失真和均衡器方面的准确度较高,而 State Space 模型在饱和和压缩方面的模拟能力超过其他方法。对于长时间变化特性,State Space 模型展现了最高的准确度。Long Short Term Memory 网络和 Linear Recurrent Unit 网络则更容易引入音频伪像。
May, 2024
本文提出了一种名为 NeuralDPS 的新型神经语音编码器,通过使用多带激励策略,控制噪声组分,调整语音的信噪比和扩大频带,该编码器可以在保持高语音质量的同时提高合成效率和降低噪声,达到与 WaveNet 相似的性能且至少比 WaveNet 合成速度快 280 倍。
Mar, 2022