VisageSynTalk：通过语音面部特征选择，实现看不见的说话者的视频合成语音

ECCVJun, 2022

VisageSynTalk：通过语音面部特征选择，实现看不见的说话者的视频合成语音

VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via Speech-Visage Feature Selection

Joanna Hong, Minsu Kim, Yong Man Ro

TL;DR该论文介绍了一种从无声说话人面部视频中重建语音的方法，该方法通过分离视频中的语音内容和面部特征，并采用基于面部特征的语音合成器来综合这些分离的表示，实现了即使给定未知主题的视频也能生成包含正确内容的语音。

Abstract

The goal of this work is to reconstruct speech from a silent talking face video. Recent studies have shown impressive performance on synthesizing speech from silent talking face videos. However, they have not explicitly considered on varying identity characteristics of different speakers, which place a challenge in the video-to-speech synthesis, and this bec

speech reconstruction silent talking face video speech content separation speaker identity separation visage-style based synthesizer

发现论文，激发创造

基于声码器的无声视频语音合成

本文利用深度学习算法，通过从口型信息中提取语音声学特征进行语音的合成，从而改善无声视频中语音恢复的质量。

Apr, 2020

基于面部图像的语音控制的零样本个性化唇语合成

本文提出了一种以面部图像控制语音的零样本个性化 Lip2Speech 合成方法，并采用变分自编码器对讲话人身份和语言内容进行解藕，由此实现了对未知说话人的声音特征进行控制。此外，我们还探索了跨模态表示学习以提高面部说话人嵌入（FSE）的语音控制能力。通过大量实验证明了该方法的有效性，其合成话语比其他方法更加自然且与输入视频的个性更匹配。据我们所知，这是第一篇使用面部图像而不是参考音频来控制声音特征的零样本个性化 Lip2Speech 合成方法。

May, 2023

FaceFilter: 通过静态图像进行音视频语音分离

使用深度学习中的音频 - 视觉语音分离网络，从混音状态中分离出指定说话者的语音，且仅使用目标说话者的单一面部图像，通过潜在空间的交叉模态生物识别任务中的面部外观获得条件特征，可隔离和提取这些说话者的语音，为语音分离任务中的通道交换问题提供解决方案，同时也适用于未知说话者。

May, 2020

面向风格的语音：面至声自然零样本语音合成中面部图像的改进潜在映射

通过面部图像生成声音对于开发能够使用其独特声音进行互动的虚拟人类非常重要，本文介绍了一种基于面部图像而非参考语音生成自然语音的零样本文本到语音合成模型（Face-StyleSpeech），通过结合面部编码器和韵律编码器从面部图像中分别捕捉说话者身份和韵律特征来应对这一挑战，并通过实验结果证明该模型在生成面部图像对应的自然语音方面胜过基准模型，甚至对未训练过的面部图像也有效。

Sep, 2023

通过对抗性解缠音视频表示生成会说话的面部表情

该研究旨在通过学习分解的音频 - 视觉表示来实现任意主题的对话面生成，并证明所学习的音频 - 视觉表示对于自动读唇和音频 - 视频检索任务非常有用。

Jul, 2018

野外任意说话人唇语合成

采用新型的 VAE-GAN 架构生成多说话者在野外拍摄的沉默唇视频中的语音，比其他基线模型表现更好，能够实现针对特定身份的微调和生成不同语音的语音序列。

Sep, 2022

Speech2Face：学习声音背后的面容

本研究旨在利用数百万自然互联网 / YouTube 视频中的人物语音，建立和训练一个深度神经网络模型，以在不需要明确建模人物面部外貌特征的情况下，从个人短音频录音中重建面部图像，通过自我监督，研究模型如何识别人物的年龄、性别和种族。

May, 2019

Vid2speech：从无声视频中重建语音

该研究利用卷积神经网络提出了一种端到端的模型，可以从无声视频帧生成可听的语音信号，实现了较高的单词清晰度，并展示了学习未识别单词的良好效果。

Jan, 2017

深度音视频语音增强对话

本文提出了一种深度视听语音增强网络方法，借助于对应视频中的嘴唇信息，能够在多人同时说话的情境下，从语音信号中分离出个人的发言，该方法适用于训练时未涉及到的说话者，并在不受限制的环境下，展现了出色的定量和定性效果。

Apr, 2018

VisualVoice: 跨模态一致性的音视频语音分离

提出一种基于面部出现和声音特征对语音进行分离的方法，可对五种基准数据集进行音视频语音分离和增强，而且具有较好的泛化性能。

Jan, 2021