May, 2024

SoundCTM: 合并基于分数和一致性模型的文本到声音生成

TL;DR我们介绍了声音一致性轨迹模型(SoundCTM),该模型通过多步骤生成实现了高质量的一步骤和多步骤实时声音生成,并在训练中利用教师网络的特征距离进行了创新。