转化音频驱动的说话脸部合成为文本驱动的

Jun, 2023

转化音频驱动的说话脸部合成为文本驱动的

Reprogramming Audio-driven Talking Face Synthesis into Text-driven

Jeongsoo Choi, Minsu Kim, Se Jin Park, Yong Man Ro

TL;DR该论文提出了一种将预训练的音频驱动人脸合成模型重新编程以使其能够处理文本输入的方法，其中涵盖了文本到音频嵌入、音频驱动模型、语音合成、说话者特征等关键词。

Abstract

In this paper, we propose a method to reprogram pre-trained audio-driven talking face synthesis models to be able to operate with text inputs. As the audio-driven talking face synthesis model takes speech audio as inputs, in order to generate a talking avatar with the desired speech content, speech recording needs to be performed in advance. However, this is

text-to-audio embedding audio-driven model talking face videos speech synthesis speaker characteristics

发现论文，激发创造

神经文本转口头表达：深度文本到视听说话合成实现听觉与逼真图像

在这篇论文中，我们提出了第一个使用 Transformer 且不遵循级联方法的文本驱动音频视觉语音合成器 NEUTART，它使用联合音频视觉特征空间、语音信息的 3D 面部重建以及通过视觉监督的嘴唇阅读损失，该模型能够生成人类般发音和音视频同步的逼真说话人脸视频，实验证明其在客观指标和人类评估方面达到了最先进的生成质量。

Dec, 2023

Ada-TTA：自适应高质量文本到语音头像合成

本文提出 Adaptive Text-to-Talking Avatar（Ada-TTA），该方法在语音识别的背景下，设计了通用的零样本多扬声器 TTS 模型，并采用神经渲染技术来实现逼真的音频驱动的说话面部视频生成，实现了身份保护言语和逼真的说话人视频。

Jun, 2023

你说了什么？

本文提出了一种生成说话脸部视频的方法，该方法使用了联合嵌入的编码器解码器 CNN 模型对目标音频和人脸进行建模来生成视频，并且还展示了使用不同人的语音重新配音的结果。

May, 2017

基于学习的个性化头部姿势音频驱动的说话人脸视频生成

本文提出了一种基于深度神经网络的方法，通过输入音频信号和短视频，生成个性化头部姿态、表情和口型同步，并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明，该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。

Feb, 2020

多语言 TTS 的说话人脸生成

本论文提出一种多语言对话生成系统，结合了人脸生成和文本到语音系统，可以仅通过文本输入生成多种语言的自然语音、同步口型，无论输入文本的语言如何，均可维持语音人的声音特征。同时，我们添加了翻译 API，展示神经配音技术的应用。

May, 2022

音频驱动的说话人生成的高效情绪适应

通过参数高效的调整，情感适应音频驱动的说话头（EAT）方法可以有效地将无情感的说话头模型转换为可控情感的模型，从不同的角度引入三种轻量级适应方式，实现精确而逼真的情感控制，并在广泛应用的基准测试中取得了最先进的性能表现。

Sep, 2023

神经语音傀儡术：基于音频的面部再现

本文介绍了神经语音操纵 (Neural Voice Puppetry) 的新方法，即通过深度神经网络驱动的三维面部模型，实现了基于音频和文本的视频合成，包括生成音频驱动的虚拟形象和文本驱动的谈话头像等多种用途。

Dec, 2019

基于文本的情感和节奏对话头生成

本研究提出了一种基于文本的交谈头视频生成框架，能够按照上下文情感及语音节奏和停顿，合成高保真度的面部表情和头部动作。我们的算法通过两个阶段：一个是针对多个人种实现的通用阶段，一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证，我们的这一算法能够生成高质量、逼真的交谈头视频，且在多项指标上均超过目前领先的技术水平。

Apr, 2021

众人皆醉我独醒：让我依你所愿地说话

该研究提出了一种基于音频输入的编辑目标肖像画面的方法，通过将目标视频帧分解为表情、几何和姿势三个正交参数空间，再利用循环神经网络将源音频转化为表情参数，并在保留原始视频背景的同时合成一个逼真的人物主体，最后利用动态编程构建一个有序连贯且令人信服的逼真视频。

Jan, 2020

通过对抗性解缠音视频表示生成会说话的面部表情

该研究旨在通过学习分解的音频 - 视觉表示来实现任意主题的对话面生成，并证明所学习的音频 - 视觉表示对于自动读唇和音频 - 视频检索任务非常有用。

Jul, 2018