Speech2Face：学习声音背后的面容

CVPRMay, 2019

Speech2Face: Learning the Face Behind a Voice

Tae-Hyun Oh, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman...

TL;DR本研究旨在利用数百万自然互联网 / YouTube 视频中的人物语音，建立和训练一个深度神经网络模型，以在不需要明确建模人物面部外貌特征的情况下，从个人短音频录音中重建面部图像，通过自我监督，研究模型如何识别人物的年龄、性别和种族。

Abstract

How much can we infer about a person's looks from the way they speak? In this paper, we study the task of reconstructing a facial image of a person from a short audio recording of that person speaking. We design and train a deep neural network to perform this task using millions of natural Internet/YouTube videos of people speaking. During training, our mode

speech2face facial reconstruction deep neural network voice-face correlations self-supervised learning

发现论文，激发创造

从推断到生成：端到端完全自监督的人脸语音生成

本研究提出了一种多模态学习框架，利用近期发展的 GAN 技术，从声音波形中直接生成自然人脸图像分布，同时分析网络是否能够自然地分离生成人脸图像的两个潜在因素，并探索网络是否能够通过建模这些因素来生成自然的人脸图像分布。

Apr, 2020

将声音与图像结合以确定视频中的发言者

本文提出了一种音视频关联系统，将音频和视觉信号的信息融合，通过对视频中的统计数据的聚合实现面部和声音的有效关联，无需针对此任务的具体训练数据，并利用音频和视觉流中信息的自然相干性，特别适用于跟踪网络视频中的说话人，通过对真实数据集的实验表明，该方法的准确率约为 71％。

May, 2017

FaceFilter: 通过静态图像进行音视频语音分离

使用深度学习中的音频 - 视觉语音分离网络，从混音状态中分离出指定说话者的语音，且仅使用目标说话者的单一面部图像，通过潜在空间的交叉模态生物识别任务中的面部外观获得条件特征，可隔离和提取这些说话者的语音，为语音分离任务中的通道交换问题提供解决方案，同时也适用于未知说话者。

May, 2020

视音频生物特征匹配

本文研究了跨模态匹配，通过使用静态图像的人脸识别和声纹识别作为训练和测试数据集，使用 CNN 架构进行了二进制和多元交叉模态人脸和音频匹配，并比较了动态和静态测试，得出了 CNN 在此任务上表现优秀并超越了人类表现。

Apr, 2018

从无声视频中改善语音重构

本文介绍了一种基于卷积神经网络的端到端模型，可将无声视频帧转化为可听、自然的语音信号，模型在 GRID 和 TCD-TIMIT 数据集上训练，并使用常见的客观指标评估重建语音的质量和可懂度，结果表明，本文提出的模型在预测语音方面比现有模型得分显著提高，同时展示了从无约束字典重构语音的有 promising 结果。

Aug, 2017

Wav2Pix: 使用生成式对抗网络进行语音条件下的人脸生成

本文中，我们探索了使用原始语音信号通过条件生成对抗网络（GAN）生成说话人的面部图像的潜力。我们使用自监督方法构建模型，同时利用自然对齐的音频和视觉信号，训练出一种从头开始生成面部图像的深度神经网络，没有任何额外的身份信息。我们使用一个新数据集对模型进行了训练，其中包含了高质量视频的演说家表达了非常出色的言语和视觉信号。

Mar, 2019

你说了什么？

本文提出了一种生成说话脸部视频的方法，该方法使用了联合嵌入的编码器解码器 CNN 模型对目标音频和人脸进行建模来生成视频，并且还展示了使用不同人的语音重新配音的结果。

May, 2017

面向风格的语音：面至声自然零样本语音合成中面部图像的改进潜在映射

通过面部图像生成声音对于开发能够使用其独特声音进行互动的虚拟人类非常重要，本文介绍了一种基于面部图像而非参考语音生成自然语音的零样本文本到语音合成模型（Face-StyleSpeech），通过结合面部编码器和韵律编码器从面部图像中分别捕捉说话者身份和韵律特征来应对这一挑战，并通过实验结果证明该模型在生成面部图像对应的自然语音方面胜过基准模型，甚至对未训练过的面部图像也有效。

Sep, 2023

VisageSynTalk：通过语音面部特征选择，实现看不见的说话者的视频合成语音

该论文介绍了一种从无声说话人面部视频中重建语音的方法，该方法通过分离视频中的语音内容和面部特征，并采用基于面部特征的语音合成器来综合这些分离的表示，实现了即使给定未知主题的视频也能生成包含正确内容的语音。

Jun, 2022

学习面孔和声音的关联

本文研究人类面孔与声音之间的关联，通过在线研究，在新建数据集上证实人们可以将未见过的面孔与对应的声音相关联，并且我们计算建模了面孔和声音之间的重叠信息，表明该跨模态表示包含足够的信息来识别匹配的面孔和声音，并且此表征具有与某些人口属性和从单一视觉或听觉模式获取的特征的相关性，我们发布了我们的音视数据集和人们朗读短文的人口学注释。

May, 2018