高效语音驱动说话人脸生成的统一压缩框架

Apr, 2023

高效语音驱动说话人脸生成的统一压缩框架

A Unified Compression Framework for Efficient Speech-Driven Talking-Face Generation

Bo-Kyeong Kim, Jaemin Kang, Daeun Seo, Hancheol Park, Shinkook Choi...

TL;DR本文提出了一种轻量级语音驱动对话人脸生成模型，采用知识蒸馏方案进行训练，同时采用混合精度以获得更高的生成速度。

Abstract

virtual humans have gained considerable attention in numerous industries, e.g., entertainment and e-commerce. As a core technology, synthesizing photorealistic face frames from target speech and facial identity has been actively studied with →

virtual humans talking-face synthesis generative adversarial networks knowledge distillation scheme mixed precision

发现论文，激发创造

通过对抗性解缠音视频表示生成会说话的面部表情

该研究旨在通过学习分解的音频 - 视觉表示来实现任意主题的对话面生成，并证明所学习的音频 - 视觉表示对于自动读唇和音频 - 视频检索任务非常有用。

Jul, 2018

基于条件循环对抗网络的说话人脸生成

提出一种基于条件对抗生成的视频网络，该网络将音频输入作为条件并考虑面部图像在不同视频帧之间的时间依赖性，从而实现唇部和面部平稳过度，最终通过音频片段提取的音素分布信息，开发出一种样本选择方法，可以在不降低生成视频质量的情况下有效减小训练数据集的规模。

Apr, 2018

SwapTalk：基于音频驱动的一键定制潜空间内的说话人脸生成

通过结合人脸交换和嘴唇同步技术，本文提出了一种创新的统一框架 SwapTalk，在相同的潜在空间中同时完成人脸交换和嘴唇同步任务，并引入了专家鉴别器指导和身份一致性度量等技术提高视频质量、同步准确性和身份一致性。

May, 2024

分层交叉模态对话脸动态像素损失生成

提出了级联 GAN 方法来生成对话式人脸视频，该方法在不同的人脸形状、视角、面部特征和嘈杂声音条件下具有鲁棒性，通过将音频转换为高级结构，即面部标志点，然后在标志点的条件下生成视频帧，避免了不相关的音频视觉信号之间的假冒关联，利用动态可调整像素级损失和注意机制来解决像素抖动问题，并提出了一种新的基于回归的鉴别器结构来生成更清晰、更同步的面部动作图像，实验结果表明，我们的方法比现有方法在定量和定性比较中取得了显著更好的效果。

May, 2019

基于文本的情感和节奏对话头生成

本研究提出了一种基于文本的交谈头视频生成框架，能够按照上下文情感及语音节奏和停顿，合成高保真度的面部表情和头部动作。我们的算法通过两个阶段：一个是针对多个人种实现的通用阶段，一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证，我们的这一算法能够生成高质量、逼真的交谈头视频，且在多项指标上均超过目前领先的技术水平。

Apr, 2021

基于深度神经网络的逼真面对面对话系统

本文提出了一种基于序列到序列模型和基于生成对抗网络的真实人物合成器的创新面对面对话系统，该系统在 ESPN 节目数据上训练和评估显示出可以生成自然面部表情和逼真的面部图像。

Aug, 2019

基于学习的个性化头部姿势音频驱动的说话人脸视频生成

本文提出了一种基于深度神经网络的方法，通过输入音频信号和短视频，生成个性化头部姿态、表情和口型同步，并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明，该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。

Feb, 2020

神经文本转口头表达：深度文本到视听说话合成实现听觉与逼真图像

在这篇论文中，我们提出了第一个使用 Transformer 且不遵循级联方法的文本驱动音频视觉语音合成器 NEUTART，它使用联合音频视觉特征空间、语音信息的 3D 面部重建以及通过视觉监督的嘴唇阅读损失，该模型能够生成人类般发音和音视频同步的逼真说话人脸视频，实验证明其在客观指标和人类评估方面达到了最先进的生成质量。

Dec, 2023

听、解缠与控制：可控语音驱动的说话人头像生成

提出了一种名为 SPEAK 的一次性 Talking Head Generation 框架，通过情感和姿势控制实现与一般 Talking Face Generation 的区别。该方法采用 Inter-Reconstructed Feature Disentanglement (IRFD) 方法将人脸特征解耦为三个潜在空间，并设计了一个面部编辑模块，将语音内容和面部潜在编码修改为单一的潜在空间。进一步，提出了一种新颖的生成器，利用编辑模块生成的修改后的潜在编码来调节情感表达、头部姿势和语音内容，以合成面部动画。大量实验表明，该方法可以生成具有协调的唇部运动、真实的面部情感和平滑的头部运动的逼真说话角色。

May, 2024

Talk3D：个性化 3D 生成先验的高保真说话肖像合成

Talk3D 是一种新的音频驱动的说话头合成框架，通过有效地采用预训练的 3D 感知生成先验模型，可以忠实地重建其合理的面部几何形状。通过音频驱动的注意力 U-Net 架构，我们的模型预测 NeRF 空间中由音频驱动的动态面部变化，并由与音频无关的调节令牌调制，有效地解耦与音频特征无关的变化。与现有方法相比，我们的方法在生成逼真的面部几何形状方面表现出色，即使在极端的头部姿势下也能如此。我们还进行了广泛的实验证明我们的方法在定量和定性评估方面超越了现有的最新基准。

Mar, 2024