音乐生成的结构导向位置编码
本文介绍了 MusicFrameworks,这是一种基于深度学习的分层音乐结构表示方法;并提出了一种多步骤的生成过程,根据长期重复结构、和弦、旋律轮廓和节奏约束生成完整的旋律。研究结果表明,其中一半的旋律比起 POP909 数据集中由人类作曲家创作的音乐更好或同样好。
Sep, 2021
本研究探讨了在给定和弦进行约束下解决旋律生成问题的方法,并比较了 LSTM(一种 RNN)和 WaveNet(扩张时间 - CNN)两种序列生成模型,结果显示使用扩张卷积层更显式地编码结构可以显著提高性能,而将基础和弦进行全局编码则更有提升效果。
Nov, 2018
模拟音乐结构在生成符号音乐作品的人工智能系统中至关重要但具有挑战性。本文概述了整合连贯结构的技术的演变,从符号方法到基础和转换的深度学习方法,利用计算和数据在各种训练范式中的强大能力。最新阶段,我们评述了一种新兴技术,称为 “子任务分解”,它涉及将音乐生成分解为独立的高级结构规划和内容创作阶段。这些系统通过提取旋律的骨架或结构模板来引导生成过程,从而纳入某种形式的音乐知识或神经符号方法。从审查的三个时期来看,已经取得了在主题和重复方面的进展,但在模拟人类作曲家风格下的扩展音乐作品中细微主题的发展仍然很困难。我们概述了几个关键的未来方向,以实现结合所有考察时期方法的协同效益。
Mar, 2024
本篇论文介绍 Transformer 自编码器用于符号音乐生成,提高性能风格和旋律的分开控制能力,并在 MAESTRO 及 Youtube 数据集上实现了比基线更好的结果。
Dec, 2019
提出了一种使用修改后的相对注意力机制来设计变形金刚神经网络的算法,用于音乐作曲、演奏和生成任务,并在 JSB Chorales 和 Piano-e-Competition 数据集上获得了最先进的结果。
Sep, 2018
通过在自注意力网络中采用相对位置编码方案,我们成功地让 Transformer 模型适应了语音数据的分散分布特点,并在 Switchboard 基准测试中获得了最佳识别结果,也在 MuST-C 语音翻译基准测试中获得了最佳出版结果,并且我们的模型能够更好地利用合成数据,并适应语音翻译的变量句子分割质量。
May, 2020
使用深度学习技术的音乐音频的端到端生成最近有很大活动。本文提出了一种替代范式,用于生成能够听取和响应音乐上下文的音乐生成模型。使用非自回归、基于 Transformer 的模型架构构建了这样一个模型,并提出了一系列新颖的架构和采样改进方法。我们在开源和专有数据集上训练了这个描述的架构。我们使用标准质量度量和基于音乐信息检索描述符的新方法来评估生成的模型。所得到的模型在音频质量上达到了最先进的基于文本的模型水平,并且在音乐连贯性方面表现出很强的上下文关联性。
Dec, 2023
本文介绍一种基于符号和弦标注的新型音乐分割方法,即 pitchclass2vec,使用自然语言处理技术和定制编码将其嵌入到连续的向量表示中。使用 LSTM 神经网络的算法,在音乐领域优于基于符号和弦注释的最新技术。
Mar, 2023
本研究提出了随机位置编码的方法来生成代替传统加性(正弦)位置编码的 PE,并证明其类似于 RPE,建立了位置编码与相关高斯过程的交叉协方差结构之间的联系。这种方法能够弥补针对最近的线性 Transformer 变量不可用于 RPE 的问题,并展示了其在 Long-Range Arena 基准测试和音乐生成方面的性能表现。
May, 2021