面向风格的语音：面至声自然零样本语音合成中面部图像的改进潜在映射

Sep, 2023

面向风格的语音：面至声自然零样本语音合成中面部图像的改进潜在映射

Face-StyleSpeech: Improved Face-to-Voice latent mapping for Natural Zero-shot Speech Synthesis from a Face Image

Minki Kang, Wooseok Han, Eunho Yang

TL;DR通过面部图像生成声音对于开发能够使用其独特声音进行互动的虚拟人类非常重要，本文介绍了一种基于面部图像而非参考语音生成自然语音的零样本文本到语音合成模型（Face-StyleSpeech），通过结合面部编码器和韵律编码器从面部图像中分别捕捉说话者身份和韵律特征来应对这一挑战，并通过实验结果证明该模型在生成面部图像对应的自然语音方面胜过基准模型，甚至对未训练过的面部图像也有效。

Abstract

Generating a voice from a face image is crucial for developing virtual humans capable of interacting using their unique voices, without relying on pre-recorded human speech. In this paper, we propose Face-StyleSp

voice generation virtual humans text-to-speech synthesis face image speaker identity

发现论文，激发创造

基于面部图像的语音控制的零样本个性化唇语合成

本文提出了一种以面部图像控制语音的零样本个性化 Lip2Speech 合成方法，并采用变分自编码器对讲话人身份和语言内容进行解藕，由此实现了对未知说话人的声音特征进行控制。此外，我们还探索了跨模态表示学习以提高面部说话人嵌入（FSE）的语音控制能力。通过大量实验证明了该方法的有效性，其合成话语比其他方法更加自然且与输入视频的个性更匹配。据我们所知，这是第一篇使用面部图像而不是参考音频来控制声音特征的零样本个性化 Lip2Speech 合成方法。

May, 2023

StyleTalk：可控话语风格的单镜头说话人生成

提出了一种一次性风格可控的说话人脸生成框架，可以从任意参考说话视频中获得一种说话风格，并将一次性画像驱动为使用参考说话风格和其他音频进行说话。

Jan, 2023

VisageSynTalk：通过语音面部特征选择，实现看不见的说话者的视频合成语音

该论文介绍了一种从无声说话人面部视频中重建语音的方法，该方法通过分离视频中的语音内容和面部特征，并采用基于面部特征的语音合成器来综合这些分离的表示，实现了即使给定未知主题的视频也能生成包含正确内容的语音。

Jun, 2022

Speech2Face：学习声音背后的面容

本研究旨在利用数百万自然互联网 / YouTube 视频中的人物语音，建立和训练一个深度神经网络模型，以在不需要明确建模人物面部外貌特征的情况下，从个人短音频录音中重建面部图像，通过自我监督，研究模型如何识别人物的年龄、性别和种族。

May, 2019

基于面部驱动的零射声音转换与基于记忆的面音对齐

一个基于面部图像的零样本语音转换任务中，提出了一种新颖的零样本面部语音转换方法，通过使用面部 - 语音对齐模块和混合监督策略来实现从一个源说话者到一个目标说话者的语音特征转换，并引入预训练的零样本语音转换模型，通过大量实验证明了该方法在零样本面部语音转换任务中的优越性。

Sep, 2023

ZET-Speech：基于扩散和基于风格的模型的零样本自适应情感可控语音合成

本文提出了一种零样本适应情绪可控 TTS 模型 ZET-Speech，旨在实现对任何说话者情感语音的合成，采用了域对抗学习和扩散模型的引导方法，实验结果表明，ZET-Speech 成功地合成了所需情感的自然和情感语音，适用于已知和未知说话者。

May, 2023

通过合成注释实现高保真度文本转语音的自然语言指导

通过对大规模数据集进行训练的文本到语音模型展示了令人印象深刻的语境学习能力和自然度。然而，这些模型中的说话人身份和风格的控制通常需要以参考语音录音为基础，从而限制了其创造性应用。相反，关于说话人身份和风格的自然语言提示已经展示了有希望的结果，并提供了一种直观的控制方法。然而，依赖于人工标注的描述限制了其扩展到大规模数据集的能力。我们的工作弥合了这两种方法之间的差距。我们提出了一种可扩展的方法来对说话人身份、风格和录音条件的各个方面进行标注。然后，我们将这种方法应用到一个 45k 小时的数据集上，用于训练语音语言模型。此外，我们提出了简单的方法来增加音频保真度，尽管完全依赖于现有数据，但性能显著超越了最近的工作。我们的结果展示了通过单一模型和直观的自然语言条件，实现了高保真度的语音生成，在各种口音、韵律风格、信道条件和声学条件下均表现出色。可以在此网址听到音频样本。

Feb, 2024

为实现逼真的音频驱动的说话人脸合成而模仿任意说话风格

本文提出了一种基于 3D 可变形模型统计参数的语音驱动说话人脸合成方法，通过无监督学习从野外的说话视频中学习特征，可以模仿任意视频中的任意风格，并且可以生成新的样式，实验证明此方法相比基线方法能够更自然、更具表现力地合成说话风格。

Oct, 2021

文本到视频：适用于零样本身份不可知的说话头像生成的两阶段框架

本文提出了一种新颖的两阶段框架，用于人物无关视频克隆，特别关注文本转视频生成。在第一阶段，我们利用预训练的零样本模型实现文本转语音转换。第二阶段采用音频驱动的说话人生成方法，根据第一阶段生成的音频产生引人注目的视频。该论文对不同的文本转语音和音频驱动的说话人生成方法进行了比较分析，确定了最有前景的研究和开发方法。

Aug, 2023

面部说话：从文本中联合合成说话脸部和语音

利用文本生成自然的说话面部表情和语音输出，通过将 Talking Face Generation (TFG) 和 Text-to-Speech (TTS) 系统整合到一个统一框架中，在解决头部姿态生成和声音一致性等挑战的同时，实现了高质量的运动代码生成和均匀语音输出。

May, 2024