FT2TF: 面向人的陈述文本至说话人脸生成

Dec, 2023

FT2TF: 面向人的陈述文本至说话人脸生成

FT2TF: First-Person Statement Text-To-Talking Face Generation

Xingjian Diao, Ming Cheng, Wayner Barrios, SouYoung Jin

TL;DR提出了 FT2TF - 第一人称陈述文本到说话人脸生成的新的一阶段端到端流水线，通过改变相应的输入文本实现对面部表情的准确操作，证明在多维度评估指标上优于现有相关方法并达到最先进水平。

Abstract

talking face generation has gained immense popularity in the computer vision community, with various applications including AR/VR, teleconferencing, digital assistants, and avatars. Traditional methods are mainly audio-driven ones which have to deal with the inevitable resource-intensi

talking face generation ft2tf first-person statement text facial expressions end-to-end pipeline

发现论文，激发创造

面部说话：从文本中联合合成说话脸部和语音

利用文本生成自然的说话面部表情和语音输出，通过将 Talking Face Generation (TFG) 和 Text-to-Speech (TTS) 系统整合到一个统一框架中，在解决头部姿态生成和声音一致性等挑战的同时，实现了高质量的运动代码生成和均匀语音输出。

May, 2024

文本到视频：适用于零样本身份不可知的说话头像生成的两阶段框架

本文提出了一种新颖的两阶段框架，用于人物无关视频克隆，特别关注文本转视频生成。在第一阶段，我们利用预训练的零样本模型实现文本转语音转换。第二阶段采用音频驱动的说话人生成方法，根据第一阶段生成的音频产生引人注目的视频。该论文对不同的文本转语音和音频驱动的说话人生成方法进行了比较分析，确定了最有前景的研究和开发方法。

Aug, 2023

多语言 TTS 的说话人脸生成

本论文提出一种多语言对话生成系统，结合了人脸生成和文本到语音系统，可以仅通过文本输入生成多种语言的自然语音、同步口型，无论输入文本的语言如何，均可维持语音人的声音特征。同时，我们添加了翻译 API，展示神经配音技术的应用。

May, 2022

实时逼真的说话人头部动画

本文介绍了一种由音频信号驱动的、生成具有个性化的逼真说话动画的活体系统，包括从音频信号中提取深度音频特征，分析面部动态和姿态，并在最终的阶段生成逼真的面部细节。

Sep, 2021

Ada-TTA：自适应高质量文本到语音头像合成

本文提出 Adaptive Text-to-Talking Avatar（Ada-TTA），该方法在语音识别的背景下，设计了通用的零样本多扬声器 TTS 模型，并采用神经渲染技术来实现逼真的音频驱动的说话面部视频生成，实现了身份保护言语和逼真的说话人视频。

Jun, 2023

基于文本的情感和节奏对话头生成

本研究提出了一种基于文本的交谈头视频生成框架，能够按照上下文情感及语音节奏和停顿，合成高保真度的面部表情和头部动作。我们的算法通过两个阶段：一个是针对多个人种实现的通用阶段，一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证，我们的这一算法能够生成高质量、逼真的交谈头视频，且在多项指标上均超过目前领先的技术水平。

Apr, 2021

通过属性分解的文本生成人脸

提出了一种名为 TTF-HD 的文本到面部图像生成模型，该模型不仅能够生成高分辨率（1024x1024）的具有文本到图像一致性的图像，还能输出多个不同的面孔，以自然的方式覆盖广泛面部特征。实验结果表明，TTF-HD 具有最先进的性能。

Jun, 2020

TransFace：基于单元的视听语音合成器，用于说话头部翻译

通过自监督学习获得的离散单元，直接语音翻译实现高质量结果，克服了模型级联带来的延迟和级联错误；本文提出了一种名为 TransFace 的模型，用于直接将视听语音翻译成其他语言的视听语音，通过语音到单元翻译模型和基于单元的视听语音合成器 Unit2Lip 实现音频与视频的同步语音重新合成，进一步引入了有界时长预测器以确保等时转头说话的翻译并防止重复参考帧

Dec, 2023

RealTalk：基于 3D 面部先验引导的身份对齐网络的实时和逼真的音频驱动人脸生成

该论文提出了一个新颖的通用音频驱动框架 RealTalk，包括音频到表情转换和表情到人脸渲染两个组成部分，通过跨模态注意力对丰富的面部先验信息进行对齐，以实现高精确度的唇语同步和实时生成高质量的面部图像。该方法在公共数据集上进行的实验结果表明，它在唇语同步和生成质量方面具有明显的优势，并且具有高效且需要较少计算资源的特点，非常适合实际应用。

Jun, 2024

GSmoothFace: 通过细粒度的 3D 人脸引导实现广义流畅对话面部生成

提出了一种新颖的两阶段广义说话人脸生成模型 GSmoothFace，通过精细的 3D 面部模型引导，能够产生平滑的唇部动态并保留说话人的身份，实验证明了我们方法在真实性、唇部同步和视觉质量方面的优越性。

Dec, 2023