使用 Transformer 在音乐流媒体服务中生成混音曲目
本文提出了一种基于 Transformer 架构的多音轨音乐生成系统 Multi-Track Music Machine(MMM),通过对音乐材料的表示和注意力机制的利用,可以实现多音轨的音乐生成,并提供音轨级别和小节级别的插入、音轨内乐器和音符密度控制等功能。
Aug, 2020
本文提出一种机器翻译方法,从一组音乐曲目中自动生成播放列表标题。作者采用序列到序列的框架,基于递归神经网络和 Transformer 来对音乐数据进行处理。考虑到播放列表中歌曲的无序性,作者提出两种方法来消除输入序列的顺序,即打乱和删除位置编码。结果显示,Transformer 模型通常优于 RNN 模型。此外,消除输入序列的顺序进一步提高了性能。
Oct, 2021
使用深度学习技术的音乐音频的端到端生成最近有很大活动。本文提出了一种替代范式,用于生成能够听取和响应音乐上下文的音乐生成模型。使用非自回归、基于 Transformer 的模型架构构建了这样一个模型,并提出了一系列新颖的架构和采样改进方法。我们在开源和专有数据集上训练了这个描述的架构。我们使用标准质量度量和基于音乐信息检索描述符的新方法来评估生成的模型。所得到的模型在音频质量上达到了最先进的基于文本的模型水平,并且在音乐连贯性方面表现出很强的上下文关联性。
Dec, 2023
数据增强通过合成更多的训练样本提高深度学习模型的泛化能力。TransformMix 是一种自动化方法,通过应用学习到的变换和混合扩增策略来创建具有正确和重要信息的混合图像,从而提高性能。
Mar, 2024
本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法,从而取消了任务特定架构的需求,简化了转录,为集中精力于数据集创建和标注而非模型设计提供了可能性。
Jul, 2021
近年来,机器学习,特别是生成对抗神经网络(GANs)和基于注意力的神经网络(transformers),已成功用于作曲和生成音乐,包括旋律和多声部作品。然而,现有研究主要集中在风格复制和转换的问题上,并未涉及到人机共同创作和评估。本文综述了音乐表征、特征分析、启发式算法、统计和参数建模,人类和自动化评估措施,并讨论了哪种方法和模型最适合于实时互动。
Feb, 2024
本文尝试将最新的数据增强技术 Mixup 应用于自然语言处理领域,特别是在与 NLP 相关的 transformer-based 学习模型中。实验结果表明,Mixup 在预训练的语言模型中是一个独立于领域的数据增强技术,能够显著提高其性能。
Oct, 2020
该论文提出了一种新型 Transformer 解码器架构,其用于不同的前馈头来模拟不同类型的 tokens,以及一种扩展 - 压缩技巧将邻近的 tokens 分组成复合单词的序列,表现出比现有模型更快和同等质量的学习能力.
Jan, 2021
本文介绍了一种生成高质量、多样化舞蹈序列的系统,使用包括 YouTube 视频在内的大量数据集进行训练,并引入了用于评价舞蹈动作质量的新指标。此系统可用于虚拟音乐会的动画生成和专业动画制作的参考。
Aug, 2020