Jun, 2024

通过隐式面部关键点编辑实现可控的说话人脸生成

TL;DR基于音频驱动的控制型对话生成系统,可根据音频控制面部表情变形,包括单幅图像或顺序视频输入,能够实现准确而自然的口型同步,并能够定量控制嘴巴张开的形状。在广泛使用的基准测试中,我们的实验表明我们的方法在性能上优于最先进的技术,可实现表情变形的跨身份和跨语种的处理,并扩展其在异域肖像中的使用。