Sep, 2023

探索文本生成音乐中的个性化方法

TL;DR调查了在 few-shot 设置中对文本到音乐扩散模型进行个性化的工作。首次探索了将预训练的文本到音频扩散器与两种常用的个性化方法结合的组合。实验了音频特定数据增强对系统整体性能的影响,并评估了不同的训练策略。构建了一个包含提示和音乐片段的新数据集进行评估,使用基于嵌入和基于音乐的量化评估指标,以及用户研究进行定性评估。分析表明相似度度量与用户偏好一致,并且当前的个性化方法更容易学习到节奏音乐结构而非旋律。该研究的代码、数据集和示例资料对研究社区开放。