对抗式-MidiBERT:基于无偏预训练和屏蔽微调的符号音乐理解模型
本文介绍了如何用预训练模型MusicBERT进行符号音乐理解,并讨论了其中涉及的关键技术,包括OctupleMIDI编码和小节层面的掩蔽策略。实验证明,MusicBERT在旋律完成、伴奏建议、流派、和风格分类等四项任务中具有优越性。
Jun, 2021
该研究使用 BERT 的掩蔽语言建模方法尝试预训练一个12层Transformer模型,用于处理4166个多音乐器 MIDI 文件,以解决一些基于符号领域的音乐理解任务,并发现预训练仍然有效。
Jul, 2021
本研究首次尝试使用BERT、GPT-2和BART等公开可用的预训练模型生成完整且语义连贯的音乐曲谱,实验结果表明使用预训练检查点在文本到音乐生成任务中具有显著改进。
Nov, 2022
本文提出了基于具有偏置校正的正弦编码的基础音乐嵌入(FME)进行符号音乐嵌入的方法,在此基础上,使用相对-索引、音高和起始时间等嵌入提出了一种基于相对的关注机制(RIPO attention)进行符号音乐建模;实验结果表明,使用RIPO Transformer进行音乐生成,可以消除音乐生成中存在的Degeneration现象,并且生成的音乐在主观和客观评估中优于基于最新Transformer的音乐生成模型。
Dec, 2022
本文研究在深度学习任务中,如何使用符号音乐模态并采用 Byte Pair Encoding (BPE) 对音乐数据进行字符编码,以提高音乐生成和作曲家分类模型的性能和均匀度。
Jan, 2023
本文研究了在符号音乐生成中,应用子词分词技术(如Byte-pair Encoding)对生成歌曲结构和长度的影响,以及与音乐生成质量指标(如结构指标,Pitch Class Entropy等)之间的关系。结果表明子词分词技术有望改善符号音乐生成质量,尤其是在生成多轨复杂数据时具有广泛的实际应用价值。比较BPE和Unigram两种方法的结果得出,两种方法均能带来稳定的改进。
Apr, 2023
应用深度学习技术对符号音乐进行理解的第一步是将音乐作品(主要是MIDI格式)转换为预定义令牌的序列,如音符音高、音符速度和和弦。然后,将这些序列输入神经序列模型以完成特定任务。在本文中,我们提出了一种新的方法——NG-Midiformer,用于理解符号音乐序列,该方法利用了N-gram方法。我们的方法首先使用我们提出的无监督复合法将音乐作品处理成类似单词的序列,然后使用我们的N-gram Transformer编码器,该编码器能够有效地融合N-gram信息,以增强用于更好理解音乐序列的主要编码器部分。大规模音乐数据集上的预训练过程使模型能够深入学习包含在音乐序列中的N-gram信息,并在微调阶段应用此信息进行推理。实验证明了我们方法的有效性,并在一系列音乐理解下游任务中实现了最先进的性能。
Dec, 2023
本文是一篇调查论文,研究了将自然语言处理(NLP)方法应用于符号音乐生成和信息检索的研究,提出了符号音乐的表示方法和深度学习模型,并讨论了NLP工具在符号音乐数据中的有效使用以及进一步研究的可能性。
Feb, 2024
本文探讨了大型语言模型(LLMs)在音乐的预训练中的应用。研究发现,LLMs与ABC记谱法更加兼容,提高了音乐创作模型的性能。为了解决不同音轨间的错位问题,我们提出了一种名为Synchronized Multi-Track ABC Notation(SMT-ABC Notation)的方法,旨在保持多个音乐音轨之间的一致性。我们的贡献包括一系列能够处理8192个标记的模型,覆盖了训练集中90%的符号音乐数据。此外,我们还研究了符号音乐缩放定律(SMS Law)对模型性能的影响。研究结果表明了音乐生成领域未来研究的一个有前途的方向,并通过我们的开源贡献为社区主导的研究提供了丰富的资源。
Apr, 2024
本研究解决了符号多轨音乐生成中数据缺乏和弦和音阶信息的问题,并提出了一种新颖的符号音乐表示法和生成对抗网络框架。通过引入MusicLang和弦分析模型以及适应该表示法的MMT-BERT架构,本研究证明了基于MusicBERT的模型在生成音乐的一致性和人性化表现方面的有效性,与当前最先进的方法保持一致。
Sep, 2024