探索文本生成音乐中的个性化方法

Sep, 2023

探索文本生成音乐中的个性化方法

Investigating Personalization Methods in Text to Music Generation

Manos Plitsis, Theodoros Kouzelis, Georgios Paraskevopoulos, Vassilis Katsouros, Yannis Panagakis

TL;DR调查了在 few-shot 设置中对文本到音乐扩散模型进行个性化的工作。首次探索了将预训练的文本到音频扩散器与两种常用的个性化方法结合的组合。实验了音频特定数据增强对系统整体性能的影响，并评估了不同的训练策略。构建了一个包含提示和音乐片段的新数据集进行评估，使用基于嵌入和基于音乐的量化评估指标，以及用户研究进行定性评估。分析表明相似度度量与用户偏好一致，并且当前的个性化方法更容易学习到节奏音乐结构而非旋律。该研究的代码、数据集和示例资料对研究社区开放。

Abstract

In this work, we investigate the personalization of text-to-music diffusion models in a few-shot setting. Motivated by recent advances in the computer vision domain, we are the first to explore the combination of pre-trained text-to-audio diffusers with two established →

text-to-music diffusion models personalization pre-trained text-to-audio diffusers audio-specific data augmentation quantitative and qualitative evaluation

发现论文，激发创造

MusicLDM: 使用节奏同步混合策略增强文本生成音乐中的新颖性

通过构建一种文本到音乐模型，并利用分布式扩散模型和音频广义线性模型来进行训练以生成新音乐，解决了音乐生成过程中的数据不足、版权和抄袭等问题。同时通过节拍跟踪和两种不同的数据增强策略，即拍子同步音频混合和拍子同步潜在混合，实现对训练数据的重组，从而生成多样化且保持风格一致的音乐。最终，通过基于对比语音 - 音频预训练模型的评估指标，进一步证明了所提出的音乐生成模型和拍子同步混合策略能够提高生成音乐的质量、创新性和与输入文本的对应关系。

Aug, 2023

Tango 2：通过直接偏好优化对齐基于扩散的文本到音频生成

研究使用 diffusion-DPO（直接偏好优化）损失在偏好数据集上对 Tango 文本到音频模型进行微调，以改进音频生成性能，并且在自动和手动评估指标上显示出优于 Tango 和 AudioLDM2 的效果。

Apr, 2024

MusicMagus：零射手风琴文本音乐编辑通过扩散模型

通过操纵潜空间并添加额外限制，本研究介绍了一种新颖方法来编辑文本生成的音乐，实现修改特定属性（如体裁、情绪和乐器），同时保持其他方面的不变。实验结果表明，在风格和音色转移评估中，与零样本和某些监督基线相比，我们的方法表现出卓越的性能。此外，我们展示了本方法在真实音乐编辑场景中的实际适用性。

Feb, 2024

基于扩散模型的文本生成音乐技术 ERNIE-Music

本文提出了一种使用扩散模型的文本到音频波形音乐生成模型，通过收集匹配的文本 - 音乐数据集，证明了自由格式文本提示的有效性，提高了波形产生的相关性，并且其生成的音乐优于以往的作品，具有更高的多样性、质量和文本 - 音乐相关性。

Feb, 2023

基于语言引导的视频音乐推荐系统

该研究提出了一种音乐推荐的方法，允许用户使用自由形式的自然语言来引导音乐选择，解决了没有音乐文本描述的挑战，并使用文本合成方法训练了新的三模态模型，该模型的检索音频可通过与视频呈现的视觉风格和语言查询中描述的音乐风格、心情或器乐匹配，以匹配两个输入模态的准确性。

Jun, 2023

JEN-1 梦幻造型师：通过关键参数调整实现个性化音乐概念学习

通过精调预训练的文本到音乐模型，本论文提出了一种新的方法来进行定制化的文本到音乐生成，利用参考音乐中的概念生成符合该概念的新音乐，并通过关键参数调整解决过拟合问题，同时提出概念增强策略以区分多个概念，该方法在定性和定量评估中优于其他基线模型。

Jun, 2024

文本和语音嵌入匹配：探索基于迁移学习的语音检索策略

本文研究了预训练的深度学习模型在跨模态（文字到音频）检索中的应用，使用浅层神经网络将提取的嵌入映射到公共维度，并探究优化模型的先前培训方法和损失函数选择的重要性。

Oct, 2022

Moûsai: 长上下文潜在扩散的文本生成音乐

本研究探索了扩散模型在生成音乐方面的潜力，提出了一种级联的潜在扩散方法来根据文本描述生成高质量的立体声音乐，同时开源相关代码和音频样本以促进领域内未来研究。

Jan, 2023

利用用户收听数据学习音频嵌入以进行基于内容的音乐推荐

使用用户的听歌历史和个人信息，借助于度量学习及 Siamese 网络，构建出用户嵌入和音频嵌入表示，从而提出了基于内容的音乐推荐方法，并将音频嵌入作为音乐类型分类任务的特征。实验结果表明，该方法达到了最新的性能。

Oct, 2020

文本转歌曲：融合人声和伴奏的可控音乐生成

本研究提出了一个称为文本到歌曲合成的新任务，结合了歌声和伴奏生成。我们开发了一种名为 Melodist 的两阶段文本到歌曲方法，它包括了歌声合成和声乐到伴奏合成。Melodist 利用三塔对比预训练来学习更有效的文本表示，用于可控的声乐到伴奏合成。我们构建了一个从音乐网站挖掘的中文歌曲数据集，以解决数据稀缺问题。我们数据集的评估结果表明，Melodist 能够合成具有可比质量和风格一致性的歌曲。音频样本可以在此 https 网址中找到。

Apr, 2024