研究利用基于分布估计器的递归神经网络的概率模型来建模多声部音乐的问题,可以提高多声部转录的准确性。
Jun, 2012
本文介绍了一种基于递归神经网络的端到端,概率序列转换系统,该系统可以将任意输入序列转换为任意的有限离散输出序列,并在 TIMIT 语音语料库上提供了音素识别的实验结果。
Nov, 2012
本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法,从而取消了任务特定架构的需求,简化了转录,为集中精力于数据集创建和标注而非模型设计提供了可能性。
Jul, 2021
研究了一种迟到融合方法和手工隐藏马尔可夫模型在钢琴转录中的应用,利用 ADSR 包络获取转移概率进行音符分段并经过最终的二进制决策规则,从而实现对完整音符的准确转换。在 MAPS 数据集上取得了最先进的结果,并能够大幅超越其他方法。
Jun, 2019
本研究尝试使用深度神经网络建立生成模型,以生成既有和声和旋律,并且足以通过人类作曲的音乐,并利用端到端学习和生成的方法。
Jun, 2016
本研究提出了一种名为神经音频变换器的模型,它可以支持在不重新计算整个模型的情况下实现增量预测,而不像序列到序列模型那样需要一个完整的输入序列。
Nov, 2015
本文采用深度学习方法,具体来说是 LSTM 网络,用于音乐转录建模和创作,使用大约 23,000 个高级词汇(ABC 符号)表示的音乐转录来构建和训练 LSTM 网络,并用其生成新的转录。实际目的是在特定的音乐创作情境中创建有用的音乐转录模型,我们从三个方面展示了结果:1)在种群水平上,比较训练转录和生成转录集的描述性统计数据;2)在个体水平上,研究生成的转录如何反映训练转录中音乐实践的惯例(凯尔特民间音乐);3)在应用级别上,使用该系统进行音乐创作的创意生成。我们开放和提供了我们的数据集、软件和声音示例:https://github.com/IraKorshunova/folk-rnn。
Apr, 2016
本文提出了一种基于序列生成对抗网络的应用方法 (SeqGAN),用于创建和捕获音符和和弦的多声部音乐序列的表征,同时利用神经网络从该嵌入式音乐词空间的模拟分布中学习预测序列的分布,实验表明该方法可以稳定地训练 GAN 并创造出具有音乐连贯性且在定量和定性方面均有所提升的音乐序列。
Oct, 2017
本文探讨了基于帧的音乐转录的各种模型,重点在于达到人类录音的最新的方法。本文中讨论的具有平移不变性的网络,结合了传统的滤波器和卷积神经网络,在 2017 年 MIREX 多基频估计评估测试中成为最佳性能模型。本类模型在 log 频率域中共享参数,利用音乐的频率不变性来减少模型参数数量并避免对训练数据的过度拟合。本文中的所有模型都是通过 MusicNet 数据集中具有标记的数据进行监督训练的,并通过随机保持标签的音调变换进行增强。
Nov, 2017
通过改进神经网络设计和模型大小,实现实时推断的钢琴转录模型,与现有最先进模型在音符精确度上相媲美并具有高性能及轻量级特点。
Apr, 2024