音乐生成的结构导向位置编码

Feb, 2024

Structure-informed Positional Encoding for Music Generation

Manvi Agarwal, Changhong Wang, Gaël Richard

TL;DR利用结构信息的位置编码框架改进深度学习生成音乐的一项研究，通过使用变换器模型，提出了三种不同类型的位置信息编码方法，并通过两个符号音乐生成任务对其进行全面测试，结果表明这些方法能够提升生成音乐作品的旋律和结构的一致性。

Abstract

Music generated by deep learning methods often suffers from a lack of coherence and long-term organization. Yet, multi-scale hierarchical structure is a distinctive feature of music signals. To leverage this information, we propose a structure-informed →

music generation deep learning positional encoding transformers evaluation metrics

发现论文，激发创造

通过分层音乐结构表示实现可控的深度旋律生成

本文介绍了 MusicFrameworks，这是一种基于深度学习的分层音乐结构表示方法；并提出了一种多步骤的生成过程，根据长期重复结构、和弦、旋律轮廓和节奏约束生成完整的旋律。研究结果表明，其中一半的旋律比起 POP909 数据集中由人类作曲家创作的音乐更好或同样好。

Sep, 2021

深度神经网络明确结构编码对符号音乐生成的影响

本研究探讨了在给定和弦进行约束下解决旋律生成问题的方法，并比较了 LSTM（一种 RNN）和 WaveNet（扩张时间 - CNN）两种序列生成模型，结果显示使用扩张卷积层更显式地编码结构可以显著提高性能，而将基础和弦进行全局编码则更有提升效果。

Nov, 2018

符号音乐生成中的结构建模：图案、短语与更多

模拟音乐结构在生成符号音乐作品的人工智能系统中至关重要但具有挑战性。本文概述了整合连贯结构的技术的演变，从符号方法到基础和转换的深度学习方法，利用计算和数据在各种训练范式中的强大能力。最新阶段，我们评述了一种新兴技术，称为 “子任务分解”，它涉及将音乐生成分解为独立的高级结构规划和内容创作阶段。这些系统通过提取旋律的骨架或结构模板来引导生成过程，从而纳入某种形式的音乐知识或神经符号方法。从审查的三个时期来看，已经取得了在主题和重复方面的进展，但在模拟人类作曲家风格下的扩展音乐作品中细微主题的发展仍然很困难。我们概述了几个关键的未来方向，以实现结合所有考察时期方法的协同效益。

Mar, 2024

使用 Transformer 自动编码器对音乐风格进行编码

本篇论文介绍 Transformer 自编码器用于符号音乐生成，提高性能风格和旋律的分开控制能力，并在 MAESTRO 及 Youtube 数据集上实现了比基线更好的结果。

Dec, 2019

音乐变形器

提出了一种使用修改后的相对注意力机制来设计变形金刚神经网络的算法，用于音乐作曲、演奏和生成任务，并在 JSB Chorales 和 Piano-e-Competition 数据集上获得了最先进的结果。

Sep, 2018

语音识别和直接翻译的相对位置编码

通过在自注意力网络中采用相对位置编码方案，我们成功地让 Transformer 模型适应了语音数据的分散分布特点，并在 Switchboard 基准测试中获得了最佳识别结果，也在 MuST-C 语音翻译基准测试中获得了最佳出版结果，并且我们的模型能够更好地利用合成数据，并适应语音翻译的变量句子分割质量。

May, 2020

StemGen: 一种音乐生成模型

使用深度学习技术的音乐音频的端到端生成最近有很大活动。本文提出了一种替代范式，用于生成能够听取和响应音乐上下文的音乐生成模型。使用非自回归、基于 Transformer 的模型架构构建了这样一个模型，并提出了一系列新颖的架构和采样改进方法。我们在开源和专有数据集上训练了这个描述的架构。我们使用标准质量度量和基于音乐信息检索描述符的新方法来评估生成的模型。所得到的模型在音频质量上达到了最先进的基于文本的模型水平，并且在音乐连贯性方面表现出很强的上下文关联性。

Dec, 2023

Pitchclass2vec: 用和弦嵌入实现的音乐结构划分

本文介绍一种基于符号和弦标注的新型音乐分割方法，即 pitchclass2vec，使用自然语言处理技术和定制编码将其嵌入到连续的向量表示中。使用 LSTM 神经网络的算法，在音乐领域优于基于符号和弦注释的最新技术。

Mar, 2023

相对位置编码在线性复杂度 Transformer 中的应用

本研究提出了随机位置编码的方法来生成代替传统加性（正弦）位置编码的 PE，并证明其类似于 RPE，建立了位置编码与相关高斯过程的交叉协方差结构之间的联系。这种方法能够弥补针对最近的线性 Transformer 变量不可用于 RPE 的问题，并展示了其在 Long-Range Arena 基准测试和音乐生成方面的性能表现。

May, 2021

任意尺度图像合成

本文提出基于位置编码和跨尺度图像合成的方法，并在多个数据集上展现了稳定高质量的生成效果。

Apr, 2022