Feb, 2024

音乐 RL:将音乐生成与人类喜好对齐

TL;DR提出了 MusicRL,这是第一个通过人类反馈进行微调的音乐生成系统,使用强化学习和人类反馈训练 MusicRL-R 和 MusicRL-U 模型,结果显示这两种模型在人类评估中优于基线模型,并强调了音乐欣赏中的主观性以及需要进一步引入人类听众在音乐生成模型的微调中。