基于生成式预训练的旋律转录
本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法,从而取消了任务特定架构的需求,简化了转录,为集中精力于数据集创建和标注而非模型设计提供了可能性。
Jul, 2021
使用转移学习解决 Jazz 音乐中数据不足和乐曲自动生成的问题。实验使用两种转移学习方法,其中添加流派标签和使用流派分类器的模型比单独使用 Jazz 数据集更好,但不能充分利用流派不指定的数据集。
Aug, 2019
通过研究训练数据的角度,本文通过在 MAESTRO 数据集的原始和重新执行版本上使用各种数据增强技术,获得了 MAPS 数据集的最新音符起始准确性,而无需查看其他的训练数据。
Feb, 2024
本文提出了一种基于分层框架和旋律 - 歌词对齐的歌词生成模型,能够在没有旋律 - 歌词对齐数据的情况下,通过对内容进行控制生成更可唱、更易懂、更连贯和有韵律的高质量歌词。
May, 2023
该研究提出了 MelodyGLM,一个多任务预训练框架,用于生成带有长期结构的旋律。研究使用 melodic n-gram 和长跨度抽样策略来创建本地和全局填充任务,以建模旋律中的本地和全局结构。研究还构建了一个包含超过 40 万旋律片段的大规模符号旋律数据集,用于大规模预训练和领域特定的 n-gram 词典构建。主观和客观评估结果表明,MelodyGLM 超过了标准和之前的预训练方法,在旋律连续性、节奏性、结构性和整体质量方面都取得了显著改进。值得注意的是,MelodyGLM 在旋律填充任务上几乎与人类创作的旋律的质量相媲美。
Sep, 2023
本文采用深度学习方法,具体来说是 LSTM 网络,用于音乐转录建模和创作,使用大约 23,000 个高级词汇(ABC 符号)表示的音乐转录来构建和训练 LSTM 网络,并用其生成新的转录。实际目的是在特定的音乐创作情境中创建有用的音乐转录模型,我们从三个方面展示了结果:1)在种群水平上,比较训练转录和生成转录集的描述性统计数据;2)在个体水平上,研究生成的转录如何反映训练转录中音乐实践的惯例(凯尔特民间音乐);3)在应用级别上,使用该系统进行音乐创作的创意生成。我们开放和提供了我们的数据集、软件和声音示例:https://github.com/IraKorshunova/folk-rnn。
Apr, 2016
我们提出了 Synthia's melody,一个能够模拟具有用户指定混淆结构的无数种 4 秒旋律的音频数据生成框架,用以填补未经探索的音频领域无监督领域适应性研究的空白,并通过生成两种类型的分布偏移 - 模型域偏移和样本选择偏差来评估声学深度学习模型在这些偏移下的表现。我们的评估结果显示,Synthia's melody 为检验这些模型对不同程度分布偏移敏感性提供了稳健的测试平台。
Sep, 2023
本研究提出一种层次化歌词生成框架,通过将已知旋律编码为解码约束并获得歌曲大纲和完整歌词的生成,实现未经过任何对齐的歌曲和歌词数据即可生成高质量歌词,并通过歌曲大纲实现内容控制。实验结果表明,本模型相对于 SongMASS 等强基线模型,基于人类评分获得了 24% 的整体质量改善。
May, 2023
Timbre-Trap 是一个新型框架,通过利用音高和音色之间的强分离性,将音乐转录和音频重建相统一。我们通过训练一个 U-Net 模型,同时估计音高显著性和重建复杂谱系数,通过简单的切换机制在解码阶段选择其中之一的输出。我们证明了该框架的性能可与最先进的无特定乐器转录方法相媲美,而只需要少量的带注释数据。
Sep, 2023