Feb, 2024

StyleDubber:面向电影配音的多尺度风格学习

TL;DR在电影配音中,通过将学习从帧级别转换到音素级别,我们提出了 StyleDubber 方法,包含了三个主要组件,即操作在音素级别的多模态风格适配器,以及在视频中呈现面部情绪的中间表示的生成;以及从中间嵌入到整体风格表达的 mel-spectrogram 解码和细化过程的话语级风格学习模块;以及维持嘴唇同步的音素引导的对齐器。与现有最先进的方法相比,对 V2C 和 Grid 这两个主要基准进行的广泛实验证明了所提方法的良好性能。