Oct, 2021

神经配音员:按照剧本为视频配音

TL;DR本文提出了一种利用神经网络模型实现视频配音的方法,该模型能够根据视频中的口型运动控制生成音频的音调,并且针对多人场景还开发了一种基于图像的扬声器嵌入模块,实现了在说话者面部表示下根据不同的人物角色生成不同的音调,经实验证明即便是在多人场景下也能达到与当前最优文本转语音模型相当的音频质量和音频与视频的时间同步表现。