适用于所有人的配音：使用神经渲染先验进行高效配音

Jan, 2024

适用于所有人的配音：使用神经渲染先验进行高效配音

Dubbing for Everyone: Data-Efficient Visual Dubbing using Neural Rendering Priors

Jack Saunders, Vinay Namboodiri

TL;DR利用数据效率的神经渲染先验和神经纹理进行演员特定的自适应，以达到高质量的视觉配音，只需几秒钟的数据即可实现，同时具有限数据的普遍性和可扩展性。

Abstract

visual dubbing is the process of generating lip motions of an actor in a video to synchronise with given audio. Recent advances have made progress towards this goal but have not been able to produce an approach suitable for mass adoption. Existing methods are split into either person-g

visual dubbing neural rendering priors high-quality limited data scalable

发现论文，激发创造

神经配音员：按照剧本为视频配音

本文提出了一种利用神经网络模型实现视频配音的方法，该模型能够根据视频中的口型运动控制生成音频的音调，并且针对多人场景还开发了一种基于图像的扬声器嵌入模块，实现了在说话者面部表示下根据不同的人物角色生成不同的音调，经实验证明即便是在多人场景下也能达到与当前最优文本转语音模型相当的音频质量和音频与视频的时间同步表现。

Oct, 2021

DiffDub：使用扩充自动编码器的修复渲染器进行人物通用视觉配音

通过 Diffusion-based dubbing 方法，我们提出了 DiffDub 自动编码器，可以实现高质量的视觉配音，包括无痕填充和人物特定纹理等创新性策略，通过全面的实验证明，我们的方法在人员通用和多语言场景中优于现有方法，并提供无缝连贯、可理解的视频。

Nov, 2023

神经风格保持的视觉配音

提出了一种基于运动风格和生成对抗网络的可视化配音方法，该方法将目标演员的签名风格保留在修改面部表情（包括口型运动）以匹配外语时，并且实验结果表明，与先前的方法相比，我们的可视化配音方法更好地保持了目标演员的固有风格。

Sep, 2019

面向异构来源实现逼真的视觉配音

本文提出了一种简单而高效的两阶段框架，通过面部特征作为中间先验，从真实说话头生成的核心任务中区分出音频和图像的同步和生成，以更容易获取的杂类数据培训两个子网，以及允许对给定的说话头进行进一步的微调，从而实现高保真的 few-shot 视觉配音。

Jan, 2022

基于语音驱动的用户生成内容配音：风格感知半参数合成

本文研究了一种音频驱动的配音方法，适用于用户生成的内容制作。通过引入新的风格翻译网络、半参量化视频渲染器和时间正则化，该方法可以准确保留不同的说话风格，并且相较于现有方法具有更低的训练数据和训练时间需求，以及更快的测试速度。

Aug, 2023

通过分层韵律模型学习配音电影

该研究提出了一种新的电影配音架构，采用层次化韵律建模的方法，在三个方面的口型、面部表情和场景方面将视觉信息与对应的语音韵律相结合，包括使用情感增强器捕捉情境气氛，获得了良好的实验结果。

Dec, 2022

神经语音傀儡术：基于音频的面部再现

本文介绍了神经语音操纵 (Neural Voice Puppetry) 的新方法，即通过深度神经网络驱动的三维面部模型，实现了基于音频和文本的视频合成，包括生成音频驱动的虚拟形象和文本驱动的谈话头像等多种用途。

Dec, 2019

Face-Dubbing++: 视频的口形同步，保留音频的翻译

本文提出了一种基于神经网络的端到端系统，用于语音保留、唇面同步翻译视频，通过多个组件模型的组合，该系统能够在目标语言中生成保持语音强调、语音特征、原始扬声器面部视频的原始讲话者的视频，并在后续过程中使用人工智能技术进行语音识别、机器翻译、语音合成、语音转换和视频生成。经过实验，我们的系统能够有效地产生令人信服的视频，而且我们也分别对系统的单个组件进行了测试。

Jun, 2022

实际配音：人类本土化的大规模研究及对自动补音的启示

本研究探讨了人类如何将视频内容从一种语言翻译成另一种语言的配音任务，利用了 319.57 小时的录像数据，结果挑战了一些关于人类配音和自动配音的普遍假定，论证了口头自然和翻译质量的重要性，同时揭示了源边声音在语音特征、情感强调等方面对人类配音的影响，强调自动配音系统需要更好地保留这些语音特征和语义转换，同时要重视时长约束。

Dec, 2022

通过学习动态纹理和视频渲染转换实现神经人类视频渲染

本文介绍了一种新的人类视频合成方法，通过两个卷积神经网络（CNNs）明确分离 2D 屏幕空间中的人类嵌入和时间相干的细节，其中第一个 CNN 预测一个动态纹理映射，第二个 CNN 条件下第一个 CNN 的输出生成最终的视频。该方法被应用于人类重演和单目视频的新视图合成等多个领域，并且在质量和数量方面都有显着的提高。

Jan, 2020