深度节奏:让每个人都创作音乐
本文采用深度学习方法,具体来说是 LSTM 网络,用于音乐转录建模和创作,使用大约 23,000 个高级词汇(ABC 符号)表示的音乐转录来构建和训练 LSTM 网络,并用其生成新的转录。实际目的是在特定的音乐创作情境中创建有用的音乐转录模型,我们从三个方面展示了结果:1)在种群水平上,比较训练转录和生成转录集的描述性统计数据;2)在个体水平上,研究生成的转录如何反映训练转录中音乐实践的惯例(凯尔特民间音乐);3)在应用级别上,使用该系统进行音乐创作的创意生成。我们开放和提供了我们的数据集、软件和声音示例:https://github.com/IraKorshunova/folk-rnn。
Apr, 2016
本文引入了 DeepJ 这一端到端的生成模型,能够在特定的作曲家风格混合条件下进行音乐创作;该模型包括学习音乐风格和音乐动力学等多种创新方法,通过人类评价表明该模型在风格迁移方面优于 Biaxial LSTM 方法。
Jan, 2018
本文提出将乐谱数据表示成具有韵律结构的形式,通过开发更好的数据输入方式,我们建立了一个节奏更流畅的 Pop 钢琴音乐生成模型 - Pop Music Transformer。
Feb, 2020
本文介绍了一种基于文本的 LSTM(长短时记忆)网络的新方法,并讨论了其在自动音乐作曲方面的应用,研究表明采用基于词的 RNNs 对和弦进行学习的效果较好,该系统可用于完全自动的音乐创作或辅助人类通过调节模型的多样性参数来创作音乐。
Apr, 2016
通过构建一种文本到音乐模型,并利用分布式扩散模型和音频广义线性模型来进行训练以生成新音乐,解决了音乐生成过程中的数据不足、版权和抄袭等问题。同时通过节拍跟踪和两种不同的数据增强策略,即拍子同步音频混合和拍子同步潜在混合,实现对训练数据的重组,从而生成多样化且保持风格一致的音乐。最终,通过基于对比语音 - 音频预训练模型的评估指标,进一步证明了所提出的音乐生成模型和拍子同步混合策略能够提高生成音乐的质量、创新性和与输入文本的对应关系。
Aug, 2023
提出了一种深度注意力对齐网络,旨在以类似于人类音乐创作的方式,通过给定的不完整歌词来自动预测歌词和旋律。文章中探索了深度神经网络从歌词到旋律的编码和解码方式,并利用注意力机制在歌词到旋律生成过程中对齐预测的歌词和旋律。定量及定性评价表明,所提出的方法确实能够为给定不完整的种子歌词创作出适当的歌词和相应的旋律。
Jan, 2023
通过深度学习技术生成古典印度音乐的方法被提出,其中以 tabla 音乐为例,利用 Bi-LSTM 和 Attention 方法以及 transformer 模型进行训练,获得了相应结果。
Apr, 2024
本文提出了一种基于序列到序列框架,利用神经编码器和分层解码器,结合自然语言和旋律创作音乐曲调及准确标定的模型,并在 18,451 首流行歌曲中的歌词 - 旋律匹配对上进行了实验,论文通过人工评估证明了模型生成的旋律比基线模型更优秀。
Sep, 2018