Aug, 2023

Diff2Lip:音頻條件下的擴散模型用於嘴唇同步

TL;DRDiff2Lip 是一个基于音频条件化扩散的模型,能够在野外环境中进行口型同步,同时保持细节丰富、逼真的唇部动作、身份特征、姿势、表情和图像质量,并且相较于 Wav2Lip 和 PC-AVS 的流行方法,在 Fréchet inception 距离 (FID) 和用户意见评分 (MOS) 方面表现出更好的性能。