基于生成式预训练的旋律转录

Dec, 2022

Melody transcription via generative pre-training

Chris Donahue, John Thickstun, Percy Liang

TL;DR利用 Jukebox 描述音频数据，并结合新数据集进行模型训练，在旋律转录方面取得了令人瞩目的进展，从而实现了直接从音频转录可阅读的乐谱的 Sheet Sage 系统。

Abstract

Despite the central role that melody plays in music perception, it remains an open challenge in music information retrieval to reliably detect the notes of the melody present in an arbitrary music recording. A key challenge in melody transcription is building methods which can handle broad audio containing any number of instrument ensembles and musical style

melody transcription jukebox generative model training data sheet sage

发现论文，激发创造

自动音乐转录中乐器间知识的传递

本文探讨使用软件合成音频数据训练通用模型来加快乐器自动转录模型的转移学习，结果表明使用合成数据训练模型可能是预训练通用模型的良好基础。

Apr, 2023

基于 Transformer 的序列到序列钢琴转录

本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法，从而取消了任务特定架构的需求，简化了转录，为集中精力于数据集创建和标注而非模型设计提供了可能性。

Jul, 2021

运用迁移学习技术提高自动爵士旋律生成

使用转移学习解决 Jazz 音乐中数据不足和乐曲自动生成的问题。实验使用两种转移学习方法，其中添加流派标签和使用流派分类器的模型比单独使用 Jazz 数据集更好，但不能充分利用流派不指定的数据集。

Aug, 2019

基于数据驱动的鲁棒自动钢琴转录分析

通过研究训练数据的角度，本文通过在 MAESTRO 数据集的原始和重新执行版本上使用各种数据增强技术，获得了 MAPS 数据集的最新音符起始准确性，而无需查看其他的训练数据。

Feb, 2024

无监督的旋律引导歌词生成

本文提出了一种基于分层框架和旋律 - 歌词对齐的歌词生成模型，能够在没有旋律 - 歌词对齐数据的情况下，通过对内容进行控制生成更可唱、更易懂、更连贯和有韵律的高质量歌词。

May, 2023

MelodyGLM：多任务符号化旋律生成的预训练

该研究提出了 MelodyGLM，一个多任务预训练框架，用于生成带有长期结构的旋律。研究使用 melodic n-gram 和长跨度抽样策略来创建本地和全局填充任务，以建模旋律中的本地和全局结构。研究还构建了一个包含超过 40 万旋律片段的大规模符号旋律数据集，用于大规模预训练和领域特定的 n-gram 词典构建。主观和客观评估结果表明，MelodyGLM 超过了标准和之前的预训练方法，在旋律连续性、节奏性、结构性和整体质量方面都取得了显著改进。值得注意的是，MelodyGLM 在旋律填充任务上几乎与人类创作的旋律的质量相媲美。

Sep, 2023

使用深度学习进行音乐转录建模和创作

本文采用深度学习方法，具体来说是 LSTM 网络，用于音乐转录建模和创作，使用大约 23,000 个高级词汇（ABC 符号）表示的音乐转录来构建和训练 LSTM 网络，并用其生成新的转录。实际目的是在特定的音乐创作情境中创建有用的音乐转录模型，我们从三个方面展示了结果：1）在种群水平上，比较训练转录和生成转录集的描述性统计数据；2）在个体水平上，研究生成的转录如何反映训练转录中音乐实践的惯例（凯尔特民间音乐）；3）在应用级别上，使用该系统进行音乐创作的创意生成。我们开放和提供了我们的数据集、软件和声音示例：https://github.com/IraKorshunova/folk-rnn。

Apr, 2016

Synthia 的旋律：无监督音频领域自适应的基准框架

我们提出了 Synthia's melody，一个能够模拟具有用户指定混淆结构的无数种 4 秒旋律的音频数据生成框架，用以填补未经探索的音频领域无监督领域适应性研究的空白，并通过生成两种类型的分布偏移 - 模型域偏移和样本选择偏差来评估声学深度学习模型在这些偏移下的表现。我们的评估结果显示，Synthia's melody 为检验这些模型对不同程度分布偏移敏感性提供了稳健的测试平台。

Sep, 2023

无监督旋律 - 歌词生成

本研究提出一种层次化歌词生成框架，通过将已知旋律编码为解码约束并获得歌曲大纲和完整歌词的生成，实现未经过任何对齐的歌曲和歌词数据即可生成高质量歌词，并通过歌曲大纲实现内容控制。实验结果表明，本模型相对于 SongMASS 等强基线模型，基于人类评分获得了 24% 的整体质量改善。

May, 2023

音色陷阱：一种用于不受乐器限制的音乐转录的低资源框架

Timbre-Trap 是一个新型框架，通过利用音高和音色之间的强分离性，将音乐转录和音频重建相统一。我们通过训练一个 U-Net 模型，同时估计音高显著性和重建复杂谱系数，通过简单的切换机制在解码阶段选择其中之一的输出。我们证明了该框架的性能可与最先进的无特定乐器转录方法相媲美，而只需要少量的带注释数据。

Sep, 2023