针对代表不足音乐生成的迁移学习

Jun, 2023

针对代表不足音乐生成的迁移学习

Transfer Learning for Underrepresented Music Generation

Anahita Doosti, Matthew Guzdial

TL;DR本文研究了组合创意方法来进行迁移学习，以提高基于深度神经网络的模型在非分布式体裁（OOD）音乐生成方面的性能。我们以伊朗民俗音乐为例，使用组合创意迁移学习方法，成功地调整了 MusicVAE（一个大型生成音乐模型）适应伊朗民俗音乐数据集。结果表明，未来该方法有潜力用于生成代表性不足的音乐类型。

Abstract

This paper investigates a combinational creativity approach to transfer learning to improve the performance of deep neural network-based models for →

combinational creativity transfer learning deep neural network music generation iranian folk music

发现论文，激发创造

运用迁移学习技术提高自动爵士旋律生成

使用转移学习解决 Jazz 音乐中数据不足和乐曲自动生成的问题。实验使用两种转移学习方法，其中添加流派标签和使用流派分类器的模型比单独使用 Jazz 数据集更好，但不能充分利用流派不指定的数据集。

Aug, 2019

互动背景下的音乐生成调查

近年来，机器学习，特别是生成对抗神经网络（GANs）和基于注意力的神经网络（transformers），已成功用于作曲和生成音乐，包括旋律和多声部作品。然而，现有研究主要集中在风格复制和转换的问题上，并未涉及到人机共同创作和评估。本文综述了音乐表征、特征分析、启发式算法、统计和参数建模，人类和自动化评估措施，并讨论了哪种方法和模型最适合于实时互动。

Feb, 2024

符号音乐风格转换与 CycleGAN

本文介绍了使用生成模型（如变分自编码器和生成对抗网络）将基于样式和域的转换技术应用于图像和音乐，并利用具有附加鉴别器的 GAN 模型成功实现了音乐流派转换。该文是 GANs 首次应用于音乐域转换的研究。

Sep, 2018

从人工神经网络到深度学习在音乐生成中的历史、概念和趋势

本文介绍了基于深度学习技术的音乐生成方法，包括早期使用人工神经网络的作品和最近的系统，使用现代深度学习技术和控制手段生成具有不同音乐风格的音乐。

Apr, 2020

在音乐生成的持续数据集扩充中融入音乐知识

本文提出了一种在数据来源有限的情况下为任何音乐生成系统进行数据集扩充的方法，称为 Aug-Gen，其使用的核心思想是通过系统训练期间产生的高质量和多样化的样本来增强生成系统的训练数据，然后应用于 J.S. Bach 风格的变换器合唱生成，显示出更好的生成输出。

Jun, 2020

从西方到东方：谁更能理解他人的音乐？

最新 MIR 发展下，利用深度学习模型进行广泛任务的领域中，关于不同音乐文化间能否使用这些模型来学习音乐表现以及是否能建立类似的音乐音频嵌入模型的研究问题引起关注。为此，我们利用迁移学习方法来探索不同音乐文化之间的相似性，并通过在西方音乐数据集、东地中海传统 / 民族数据集和印度艺术音乐数据集间训练和迁移三种不同的深度音频嵌入模型（包括两个基于卷积神经网络和一个 Transformer 架构的模型）进行自动标签化的实验，结果表明在所有领域均通过迁移学习获得了有竞争力的表现，但对于每种音乐文化来说，最佳源数据集有所不同。实现代码和训练好的模型都提供在公共存储库中。

Jul, 2023

音乐的深度学习

本研究尝试使用深度神经网络建立生成模型，以生成既有和声和旋律，并且足以通过人类作曲的音乐，并利用端到端学习和生成的方法。

Jun, 2016

TC-VAE: 揭示数据生成因素中的外部分布

使用 TC-VAE 模型分析非均衡数据生成因素对生成模型的影响，并显示该模型能够发现不在数据集中显示的越界生成因素。

Apr, 2023

DeepJ: 风格特定音乐生成

本文引入了 DeepJ 这一端到端的生成模型，能够在特定的作曲家风格混合条件下进行音乐创作；该模型包括学习音乐风格和音乐动力学等多种创新方法，通过人类评价表明该模型在风格迁移方面优于 Biaxial LSTM 方法。

Jan, 2018

用于组合表示学习的多模态生成模型

该文介绍了一种基于多模态数据边缘似然的分层变分自编码器的族群。文章使用 VAEGAN 及基于流的模型构建了模型。实验结果表明，对于图像、标签和文本数据，这些模型在很多领域中达到了最优结果，并且使用 GAN 图像模型和 VAE 语言模型可以得到更好的表现。最后，在配合口语的任务中，该文章发现用于学习图像表达的表示比只使用视觉数据中学习的等效表示更抽象、更组合。

Dec, 2019