Aug, 2023

基于语音驱动的用户生成内容配音:风格感知半参数合成

TL;DR本文研究了一种音频驱动的配音方法,适用于用户生成的内容制作。通过引入新的风格翻译网络、半参量化视频渲染器和时间正则化,该方法可以准确保留不同的说话风格,并且相较于现有方法具有更低的训练数据和训练时间需求,以及更快的测试速度。