Dec, 2023

DiT-Head:使用扩散变压器进行高分辨率说话人合成

TL;DR我们提出了一种基于扩散变压器的新型对话头合成流程,利用音频作为条件来驱动扩散模型的去噪过程。我们的方法具有可扩展性,可以推广到多个身份,同时产生高质量的结果。通过与现有的对话头合成方法进行比较,我们对我们提出的方法进行训练和评估,并展示了我们的模型在视觉质量和嘴唇同步准确性方面可以与这些方法竞争。我们的结果突显了我们提出的方法在包括虚拟助手、娱乐和教育在内的广泛应用中的潜力。请参阅我们的补充材料以获取结果和用户研究的视频演示。