基于语音驱动的用户生成内容配音：风格感知半参数合成

Aug, 2023

基于语音驱动的用户生成内容配音：风格感知半参数合成

Audio-Driven Dubbing for User Generated Contents via Style-Aware Semi-Parametric Synthesis

Linsen Song, Wayne Wu, Chaoyou Fu, Chen Change Loy, Ran He

TL;DR本文研究了一种音频驱动的配音方法，适用于用户生成的内容制作。通过引入新的风格翻译网络、半参量化视频渲染器和时间正则化，该方法可以准确保留不同的说话风格，并且相较于现有方法具有更低的训练数据和训练时间需求，以及更快的测试速度。

Abstract

Existing automated dubbing methods are usually designed for Professionally Generated Content (PGC) production, which requires massive training data and training time to learn a person-specific audio-video mapping. In this paper, we investigate an audio-driven dubbing method that is mor

automated dubbing methods user-generated content style translation network semi-parametric video renderer temporal regularization

发现论文，激发创造

StyleDubber：面向电影配音的多尺度风格学习

在电影配音中，通过将学习从帧级别转换到音素级别，我们提出了 StyleDubber 方法，包含了三个主要组件，即操作在音素级别的多模态风格适配器，以及在视频中呈现面部情绪的中间表示的生成；以及从中间嵌入到整体风格表达的 mel-spectrogram 解码和细化过程的话语级风格学习模块；以及维持嘴唇同步的音素引导的对齐器。与现有最先进的方法相比，对 V2C 和 Grid 这两个主要基准进行的广泛实验证明了所提方法的良好性能。

Feb, 2024

神经风格保持的视觉配音

提出了一种基于运动风格和生成对抗网络的可视化配音方法，该方法将目标演员的签名风格保留在修改面部表情（包括口型运动）以匹配外语时，并且实验结果表明，与先前的方法相比，我们的可视化配音方法更好地保持了目标演员的固有风格。

Sep, 2019

利用生成对抗网络进行视频驱动的语音重建

本文提出了一种基于生成式对抗网络（GANs）的、直接从无声视频中合成自然语音的端到端模型，能够根据视频内容生成与其同步的语音，并在 GRID 数据集上进行了性能评估，实现了从视频到裸音频的首次直接映射，并能够识别新演讲者的语音，并在音质和准确性方面对生成的音频进行评价。

Jun, 2019

通过分层韵律模型学习配音电影

该研究提出了一种新的电影配音架构，采用层次化韵律建模的方法，在三个方面的口型、面部表情和场景方面将视觉信息与对应的语音韵律相结合，包括使用情感增强器捕捉情境气氛，获得了良好的实验结果。

Dec, 2022

面向异构来源实现逼真的视觉配音

本文提出了一种简单而高效的两阶段框架，通过面部特征作为中间先验，从真实说话头生成的核心任务中区分出音频和图像的同步和生成，以更容易获取的杂类数据培训两个子网，以及允许对给定的说话头进行进一步的微调，从而实现高保真的 few-shot 视觉配音。

Jan, 2022

Face-Dubbing++: 视频的口形同步，保留音频的翻译

本文提出了一种基于神经网络的端到端系统，用于语音保留、唇面同步翻译视频，通过多个组件模型的组合，该系统能够在目标语言中生成保持语音强调、语音特征、原始扬声器面部视频的原始讲话者的视频，并在后续过程中使用人工智能技术进行语音识别、机器翻译、语音合成、语音转换和视频生成。经过实验，我们的系统能够有效地产生令人信服的视频，而且我们也分别对系统的单个组件进行了测试。

Jun, 2022

适用于所有人的配音：使用神经渲染先验进行高效配音

利用数据效率的神经渲染先验和神经纹理进行演员特定的自适应，以达到高质量的视觉配音，只需几秒钟的数据即可实现，同时具有限数据的普遍性和可扩展性。

Jan, 2024

从语音到语音翻译到自动配音

本文提出了一种基于神经网络的语音 - 语音翻译系统，实现了自动配音。实验结果表明自动配音的自然度得到了显著提升，包括多个技术创新点，如神经机器翻译、音频渲染、语音对位、语音合成等。

Jan, 2020

神经配音员：按照剧本为视频配音

本文提出了一种利用神经网络模型实现视频配音的方法，该模型能够根据视频中的口型运动控制生成音频的音调，并且针对多人场景还开发了一种基于图像的扬声器嵌入模块，实现了在说话者面部表示下根据不同的人物角色生成不同的音调，经实验证明即便是在多人场景下也能达到与当前最优文本转语音模型相当的音频质量和音频与视频的时间同步表现。

Oct, 2021

DiffDub：使用扩充自动编码器的修复渲染器进行人物通用视觉配音

通过 Diffusion-based dubbing 方法，我们提出了 DiffDub 自动编码器，可以实现高质量的视觉配音，包括无痕填充和人物特定纹理等创新性策略，通过全面的实验证明，我们的方法在人员通用和多语言场景中优于现有方法，并提供无缝连贯、可理解的视频。

Nov, 2023