从像素到肖像：口头生成技术与应用的综合调研

Aug, 2023

从像素到肖像：口头生成技术与应用的综合调研

From Pixels to Portraits: A Comprehensive Survey of Talking Head Generation Techniques and Applications

Shreyank N Gowda, Dheeraj Pandey, Shashank Narayana Gowda

TL;DR这篇论文系统地研究了最新的深度学习和计算机视觉技术在逼真说话头部生成方面的方法，将它们分为图像驱动、音频驱动、视频驱动和其他（包括神经辐射场（NeRF）和基于 3D 的方法）四种主要方法，并深入分析每种方法的独特贡献、优势和局限性。此外，还对公开可用的模型进行了全面比较，在推理时间和生成输出的质量等关键方面进行了评估。本文的目标是提供一个清晰而简明的关于当前说话头部生成领域的概述，阐明不同方法之间的关系，并确定未来研究的有希望的方向。这个综述将为对这个快速发展领域感兴趣的研究人员和从业者提供有价值的参考。

Abstract

Recent advancements in deep learning and computer vision have led to a surge of interest in generating realistic talking heads. This paper presents a comprehensive →

deep learning computer vision talking head generation state-of-the-art methods survey

发现论文，激发创造

对话者合成的综合分类和分析：肖像生成、驱动机制和编辑的技术

头像合成的技术和应用进行了全面的调查和总结，涵盖了头像生成、驱动机制、编辑技术等方面，同时还提供了大量的数据集和绩效分析，以支持未来的研究和应用。

Jun, 2024

如何才能生成良好的面部表情视频？：调查和基准评估

本文提出了一个用于评估生成 “说话人头像” 视频的基准，并提出了一些新的或最合适的度量标准来考虑视频保持身份一致性、嘴唇同步性，高视频质量和自然运动，以分析多种先进技术的优缺点并提出未来工作的有希望的方向。

May, 2020

高保真自由可控的说话头部视频生成

本文提出了一种新模型，通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模，并引入了新的运动感知多尺度特征对齐模块来进行视频合成，从而实现了对头部姿态和表情的自由控制，并且得到了最优质的合成音频视频输出。

Apr, 2023

MakeItTalk: 面向发言人的说话人头动画

本文提出了一种从单个面部图像与仅含音频的输入生成富有表现力的谈话头像的方法，并能以单一的统一框架中合成艺术绘画、素描、2D 卡通角色、日本漫画和风格化漫画等图像，并通过定量和定性方法的评估以及用户研究，证明其比现有技术的生成头像的质量显着更高。

Apr, 2020

Talk3D：个性化 3D 生成先验的高保真说话肖像合成

Talk3D 是一种新的音频驱动的说话头合成框架，通过有效地采用预训练的 3D 感知生成先验模型，可以忠实地重建其合理的面部几何形状。通过音频驱动的注意力 U-Net 架构，我们的模型预测 NeRF 空间中由音频驱动的动态面部变化，并由与音频无关的调节令牌调制，有效地解耦与音频特征无关的变化。与现有方法相比，我们的方法在生成逼真的面部几何形状方面表现出色，即使在极端的头部姿势下也能如此。我们还进行了广泛的实验证明我们的方法在定量和定性评估方面超越了现有的最新基准。

Mar, 2024

Audio2Head：基于音频的单次对话生成，自然的头部运动

本文提出一种基于音频驱动的头像动画方法，该方法同时解决了面部动画和头部运动的问题，并且采用了神经网络来预测和生成头部和面部的动画以及背景的动作。通过关键点密集的运动场表示，本方法产生的头像动画具有很好的空间和时间连续性，并且性能优于现有技术。

Jul, 2021

基于文本的情感和节奏对话头生成

本研究提出了一种基于文本的交谈头视频生成框架，能够按照上下文情感及语音节奏和停顿，合成高保真度的面部表情和头部动作。我们的算法通过两个阶段：一个是针对多个人种实现的通用阶段，一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证，我们的这一算法能够生成高质量、逼真的交谈头视频，且在多项指标上均超过目前领先的技术水平。

Apr, 2021

实时逼真的说话人头部动画

本文介绍了一种由音频信号驱动的、生成具有个性化的逼真说话动画的活体系统，包括从音频信号中提取深度音频特征，分析面部动态和姿态，并在最终的阶段生成逼真的面部细节。

Sep, 2021

VividTalk：基于 3D 混合先验模型的单次音频驱动说话头生成

提出了一个名为 VividTalk 的两阶段通用框架，用于生成具有高视觉质量的语音驱动的说话人视频，并在唇语同步、丰富的面部表情、高视觉质量等方面超越了以往的最先进作品。

Dec, 2023

ScanTalk：从未注册的扫描数据生成 3D 说话人头像

ScanTalk 是一个新的框架，利用 DiffusionNet 架构来解决面部固定拓扑结构的限制，实现任意拓扑结构的 3D 面部动画。通过与现有技术的全面比较，验证了该方法生成与现有技术可媲美的逼真说话头部的有效性。

Mar, 2024