文本或语音驱动的统一人脸标记生成器

Feb, 2023

文本或语音驱动的统一人脸标记生成器

UniFLG: Unified Facial Landmark Generator from Text or Speech

Kentaro Mitsui, Yukiya Hono, Kei Sawada

TL;DR提出一种统一的面部标记生成器（Unified facial landmark generator），利用端到端的文本到语音不仅用于合成语音，还用于提取一系列与文本和语音共同的潜在表示，将其馈送至标记解码器以生成面部标记，并演示这个系统在语音合成和面部地标生成方面比最先进的基于文本的方法具有更高的真实性，可以从没有面部视频数据甚至语音数据的演讲者的语音中生成面部特征点。

Abstract

talking face generation has been extensively investigated owing to its wide applicability. The two primary frameworks used for talking face generation comprise a →

talking face generation text-driven framework speech-driven framework facial landmark generator end-to-end text-to-speech

发现论文，激发创造

面部说话：从文本中联合合成说话脸部和语音

利用文本生成自然的说话面部表情和语音输出，通过将 Talking Face Generation (TFG) 和 Text-to-Speech (TTS) 系统整合到一个统一框架中，在解决头部姿态生成和声音一致性等挑战的同时，实现了高质量的运动代码生成和均匀语音输出。

May, 2024

从语音生成说话脸部标记

本文介绍了一个能够从声学语音中实时生成说话人脸关键点的系统，该系统使用一个 LSTM 网络进行训练并能够在不同说话人和话语上进行产生。

Mar, 2018

基于关键点和外观先验的身份保持说话人脸生成

提出了一种两阶段方法以生成更逼真、口型同步和较好地保留身份信息的谈话面部视频。第一阶段利用基于 Transformer 的关键点生成器从音频中提取嘴唇和下颌关键点，并根据说话人的脸部轮廓调整生成的关键点。在第二阶段中，视频渲染模型将关键点转换为面部图像，并利用静态参考图像中的先前外观信息生成更逼真的视觉内容。

May, 2023

多语言 TTS 的说话人脸生成

本论文提出一种多语言对话生成系统，结合了人脸生成和文本到语音系统，可以仅通过文本输入生成多种语言的自然语音、同步口型，无论输入文本的语言如何，均可维持语音人的声音特征。同时，我们添加了翻译 API，展示神经配音技术的应用。

May, 2022

从语音中学习地标运动以获取说话人不可知的 3D 语音生成

本篇研究提出了一种新方法，通过音频输入生成 3D 说话人头部动画，并利用面部的传动部位上的控制点来描述语音相关的运动，并利用两个不同的模型来实现；该方法具有身份不相关性，可实现任何用户的高质量面部动画。利用陆标在 3D 说话人头部动画生成中提供了各种优点，例如一致性，可靠性和不需要手动注释。

Jun, 2023

FLNet：基于关键点的获取和学习网络，用于忠实的对话人脸动画合成

本篇论文提出了一种基于多源图像驱动的两流网络来生成更准确和更稳定的谈话人脸动画，相比基线算法，实验结果表现更好。

Nov, 2019

情感对话：赋能连贯表情、凝视和姿态生成的交流面孔

通过自我监督学习，我们提出了一个两阶段的音频驱动对话人物生成框架，利用 3D 面部特征点作为中间变量，以实现表情、注视和头部姿势的合作对齐，并映射到预训练模型中以生成高质量人脸图像。

Jun, 2024

FlexLip：一种可控的文本转唇型系统

本文中，我们提出了一个名为 FlexLip 的模块化、可控的文本生成唇形的系统，该系统分为两个模块：文本转语音和语音转唇形，并对其进行了深入的评估和测试，尤其是在新讲话者的快速适应方面进行了探究。

Jun, 2022

基于面部特征的多说话人环境下的语音增强

本文提出了使用已有的人脸标记检测器生成时间 - 频率蒙版来提高多人交谈环境下的语音增强过程，其结果表明，我们的模型是在有限的 GRID 和 TCD-TIMIT 数据集上进行培训和评估的首个能够实现在多人交谈环境中实现独立于发言人的语音增强的模型。

Nov, 2018

上下文感知的说话人脸视频生成

通过使用面部特征作为控制信号，我们提供了一个两阶段和跨模态可控的视频生成流程，以自然地生成与驱动音频和对话环境空间上连贯的视频内容。实验结果表明，该方法在音视频同步、视频保真度和帧一致性方面优于其他基准方法。

Feb, 2024