时间和音符时长的分词对深度学习的符号音乐建模的影响
本文讨论了使用 Transformer 模型对音乐成分进行分词表示的方法,以生成适当的音乐符号表示法。研究发现,该方法在所有 12 种音乐方面都显著优于现有方法。作者还探讨了适合使用该模型的有效符号表示法,确定了该方法的最佳效果。
Dec, 2021
本文是一篇调查论文,研究了将自然语言处理(NLP)方法应用于符号音乐生成和信息检索的研究,提出了符号音乐的表示方法和深度学习模型,并讨论了 NLP 工具在符号音乐数据中的有效使用以及进一步研究的可能性。
Feb, 2024
本文研究在深度学习任务中,如何使用符号音乐模态并采用 Byte Pair Encoding (BPE) 对音乐数据进行字符编码,以提高音乐生成和作曲家分类模型的性能和均匀度。
Jan, 2023
该论文提出了一种新型 Transformer 解码器架构,其用于不同的前馈头来模拟不同类型的 tokens,以及一种扩展 - 压缩技巧将邻近的 tokens 分组成复合单词的序列,表现出比现有模型更快和同等质量的学习能力.
Jan, 2021
本文研究了在符号音乐生成中,应用子词分词技术(如 Byte-pair Encoding)对生成歌曲结构和长度的影响,以及与音乐生成质量指标(如结构指标,Pitch Class Entropy 等)之间的关系。结果表明子词分词技术有望改善符号音乐生成质量,尤其是在生成多轨复杂数据时具有广泛的实际应用价值。比较 BPE 和 Unigram 两种方法的结果得出,两种方法均能带来稳定的改进。
Apr, 2023
应用深度学习技术对符号音乐进行理解的第一步是将音乐作品(主要是 MIDI 格式)转换为预定义令牌的序列,如音符音高、音符速度和和弦。然后,将这些序列输入神经序列模型以完成特定任务。在本文中,我们提出了一种新的方法 ——NG-Midiformer,用于理解符号音乐序列,该方法利用了 N-gram 方法。我们的方法首先使用我们提出的无监督复合法将音乐作品处理成类似单词的序列,然后使用我们的 N-gram Transformer 编码器,该编码器能够有效地融合 N-gram 信息,以增强用于更好理解音乐序列的主要编码器部分。大规模音乐数据集上的预训练过程使模型能够深入学习包含在音乐序列中的 N-gram 信息,并在微调阶段应用此信息进行推理。实验证明了我们方法的有效性,并在一系列音乐理解下游任务中实现了最先进的性能。
Dec, 2023
本研究探讨了在给定和弦进行约束下解决旋律生成问题的方法,并比较了 LSTM(一种 RNN)和 WaveNet(扩张时间 - CNN)两种序列生成模型,结果显示使用扩张卷积层更显式地编码结构可以显著提高性能,而将基础和弦进行全局编码则更有提升效果。
Nov, 2018
近期自然语言处理进展中,语言模型如 Transformers 已被应用于符号音乐,可用于音乐生成、建模或转录,拥有最先进的性能。为了对骨干模型进行音乐编码和解码,需要依赖于令牌化器,其作用是将音乐序列化为称为令牌的不同元素序列。MidiTok 是一个开源库,提供对符号音乐进行令牌化的灵活性和扩展功能,具备最受欢迎的音乐令牌化,并具备统一的 API,旨在方便所有人使用和扩展。
Oct, 2023
本文提出了一种主观方法,通过向不同水平的用户询问与基本音乐原理相关的问题来评估基于 AI 的音乐作曲系统,以比较深度学习模型的最新发展情况,并给出了对于每个评估模型的每个用户水平的响应的结果。
Mar, 2022
本文提出了一种将深度学习中的原始音频模型和符号模型相结合的音乐自动生成方法,使用 LSTM 网络学习音乐的旋律结构,再将符号生成作为 WaveNet 原始音频生成器的条件输入,从而生成出有结构且听起来逼真的音乐。
Jun, 2018