深度无监督鼓转录
该论文介绍了一种改进的敲鼓机器人,它能够基于注意力机制和流行视觉转换网络,自动完成音乐转录,并能有效处理音频嵌入输入的全局长程依赖关系,实验证明改进算法提高了机器人的敲鼓分类性能,为机器人提供了各种智能应用和服务。
Oct, 2023
本研究提出使用深度模型进行跨领域的知识迁移,将大规模预训练的语言模型应用于鼓演奏的 MIDI 文件生成。研究表明,GPT3 模型能够生成相对合理的鼓声,但使用其他没有预训练的模型却无法实现。同时,作者还提出了定制结构评估方法,以比较生成的音乐与专业音乐家演奏的音乐,并揭示了此种方法的优缺点。该研究表明,使用大型语言模型进行跨领域迁移学习具有应用前景。
Jan, 2023
利用人工智能物联网和边缘计算技术,提出了一个鼓机器人系统,可以实时完成音乐转录并通过轻量级卷积神经网络模型进行分析,以实现更高效的终端设备上的快速边缘计算和更多智能应用和服务。
Aug, 2023
该研究介绍了 StemGMD,这是一个大规模的音频数据集,用于孤立的单乐器鼓音轨。使用真实的声音鼓套件合成每个音频剪辑,总共 1224 小时,是迄今为止最大的鼓音频数据集,也是第一个包含九件标准鼓套件的每个乐器的孤立音频剪辑。利用 StemGMD,研究者们开发了 LarsNet,一种新颖的深度鼓音源分离模型,并证明其在分离五个鼓声音轨方面的性能显著优于现有的非负谱时分解方法。
Dec, 2023
通过研究训练数据的角度,本文通过在 MAESTRO 数据集的原始和重新执行版本上使用各种数据增强技术,获得了 MAPS 数据集的最新音符起始准确性,而无需查看其他的训练数据。
Feb, 2024
本研究提出使用基于多领域 wavenet 自动编码器的方法进行音乐跨乐器、流派和风格的转换,并利用无监督学习的方法在 NSynth 和音乐家采集的数据集中实现了令人信服的转换结果,即使是从哨声这样不同领域中的音乐进行转换,也可以让非专业人士制作出管弦乐曲。
May, 2018
本文采用生成对抗网络(GAN)实现打击乐器声音的音频合成,在公开特征提取器计算的感知特征的基础上进行模型输入条件化,从而实现对音频合成的直观控制。实验结果表明,相对于基于 U-Net 框架的特定原始工作,我们的方法显着地提高了生成鼓样品的质量,并且输入的条件确实塑造了声音的感知特性。
Aug, 2020
本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法,从而取消了任务特定架构的需求,简化了转录,为集中精力于数据集创建和标注而非模型设计提供了可能性。
Jul, 2021
本文采用深度学习方法,具体来说是 LSTM 网络,用于音乐转录建模和创作,使用大约 23,000 个高级词汇(ABC 符号)表示的音乐转录来构建和训练 LSTM 网络,并用其生成新的转录。实际目的是在特定的音乐创作情境中创建有用的音乐转录模型,我们从三个方面展示了结果:1)在种群水平上,比较训练转录和生成转录集的描述性统计数据;2)在个体水平上,研究生成的转录如何反映训练转录中音乐实践的惯例(凯尔特民间音乐);3)在应用级别上,使用该系统进行音乐创作的创意生成。我们开放和提供了我们的数据集、软件和声音示例:https://github.com/IraKorshunova/folk-rnn。
Apr, 2016
本文提出一种使用 Transformer 模型在音频领域生成鼓声的方法,通过使用含有鼓声和不含鼓声的音轨进行训练,使用 VQ-VAE 进行音频编码,使用 Mel-spectrogram 进行鼓声编码,并且使用与输入音频相关的节拍特征,从而演奏出与输入音频节奏风格一致的鼓声。
Oct, 2022