Apr, 2024

Tango 2:通过直接偏好优化对齐基于扩散的文本到音频生成

TL;DR研究使用diffusion-DPO(直接偏好优化)损失在偏好数据集上对Tango文本到音频模型进行微调,以改进音频生成性能,并且在自动和手动评估指标上显示出优于Tango和AudioLDM2的效果。