StyleDubber：面向电影配音的多尺度风格学习

Feb, 2024

StyleDubber：面向电影配音的多尺度风格学习

StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing

Gaoxiang Cong, Yuankai Qi, Liang Li, Amin Beheshti, Zhedong Zhang...

TL;DR在电影配音中，通过将学习从帧级别转换到音素级别，我们提出了 StyleDubber 方法，包含了三个主要组件，即操作在音素级别的多模态风格适配器，以及在视频中呈现面部情绪的中间表示的生成；以及从中间嵌入到整体风格表达的 mel-spectrogram 解码和细化过程的话语级风格学习模块；以及维持嘴唇同步的音素引导的对齐器。与现有最先进的方法相比，对 V2C 和 Grid 这两个主要基准进行的广泛实验证明了所提方法的良好性能。

Abstract

Given a script, the challenge in movie dubbing (visual voice cloning, v2c) is to generate speech that aligns well with the video in both t

movie dubbing visual voice cloning v2c styledubber phoneme level

发现论文，激发创造

通过分层韵律模型学习配音电影

该研究提出了一种新的电影配音架构，采用层次化韵律建模的方法，在三个方面的口型、面部表情和场景方面将视觉信息与对应的语音韵律相结合，包括使用情感增强器捕捉情境气氛，获得了良好的实验结果。

Dec, 2022

神经风格保持的视觉配音

提出了一种基于运动风格和生成对抗网络的可视化配音方法，该方法将目标演员的签名风格保留在修改面部表情（包括口型运动）以匹配外语时，并且实验结果表明，与先前的方法相比，我们的可视化配音方法更好地保持了目标演员的固有风格。

Sep, 2019

基于语音驱动的用户生成内容配音：风格感知半参数合成

本文研究了一种音频驱动的配音方法，适用于用户生成的内容制作。通过引入新的风格翻译网络、半参量化视频渲染器和时间正则化，该方法可以准确保留不同的说话风格，并且相较于现有方法具有更低的训练数据和训练时间需求，以及更快的测试速度。

Aug, 2023

神经配音员：按照剧本为视频配音

本文提出了一种利用神经网络模型实现视频配音的方法，该模型能够根据视频中的口型运动控制生成音频的音调，并且针对多人场景还开发了一种基于图像的扬声器嵌入模块，实现了在说话者面部表示下根据不同的人物角色生成不同的音调，经实验证明即便是在多人场景下也能达到与当前最优文本转语音模型相当的音频质量和音频与视频的时间同步表现。

Oct, 2021

面向异构来源实现逼真的视觉配音

本文提出了一种简单而高效的两阶段框架，通过面部特征作为中间先验，从真实说话头生成的核心任务中区分出音频和图像的同步和生成，以更容易获取的杂类数据培训两个子网，以及允许对给定的说话头进行进一步的微调，从而实现高保真的 few-shot 视觉配音。

Jan, 2022

Mimic：语音驱动三维面部动画的说话风格解耦

通过创新的说话风格解缠方法，我们提出了一种名为躺椅的新框架，用于学习面部运动的解缠表示，并通过建立风格和内容的二个潜在空间来实现任意主题说话风格的编码，从而实现更真实的语音驱动面部动画的合成。

Dec, 2023

DiffDub：使用扩充自动编码器的修复渲染器进行人物通用视觉配音

通过 Diffusion-based dubbing 方法，我们提出了 DiffDub 自动编码器，可以实现高质量的视觉配音，包括无痕填充和人物特定纹理等创新性策略，通过全面的实验证明，我们的方法在人员通用和多语言场景中优于现有方法，并提供无缝连贯、可理解的视频。

Nov, 2023

StyleSync：基于 Style 生成器的高保真通用和个性化嘴唇同步

该研究提出了 StyleSync，一种有效的框架，通过引入风格空间和特征重构，利用音频的调制卷积来准确地修改嘴的形状，使得目标人物的身份和说话风格能够被准确地保留，从而实现高保真的唇部同步。

May, 2023

VisemeNet：音频驱动的动画师中心语音动画

本文提出了一种基于深度学习的新型方法，用于直接从输入音频中产生驱动 JALI 或标准 FACS 制作面部捕捉的动画师中心音频运动曲线。

May, 2018

无标签风格迁移：量化 VAE 和基于发言人的归一化在语音合成中的跨说话人风格转换

本研究提出了一种基于 Q-VAE 和批归一化以及数据增强的跨说话人语音风格转移方法，无需使用手动标注的标签即可实现从源说话人到目标说话人的风格迁移，并证明了该方法优于基准方法。

Dec, 2022