跨模态感知者：能否从声音中获取面部几何信息？

CVPRMar, 2022

跨模态感知者：能否从声音中获取面部几何信息？

Cross-Modal Perceptionist: Can Face Geometry be Gleaned from Voices?

Cho-Ying Wu, Chin-Cheng Hsu, Ulrich Neumann

TL;DR该论文研究了声音是否可以描绘出人脸的几何形状，提出了一种跨模态感知的分析框架，包括有监督和无监督学习，并构建了一个包含配对声音和面部网格的数据集，最终通过视觉和数字分析探究了这一核心问题。

Abstract

This work digs into a root question in human perception: can face geometry be gleaned from one's voices? Previous works that study this question only adopt developments in image synthesis and convert voices into face images to show correlations, but working on the image domain unavoidably involves predicting attributes that voices cannot hint, including faci

voice-to-face conversion 3d face reconstruction cross-modal perception supervised learning knowledge distillation

发现论文，激发创造

重新思考声音和面部相关性：几何视角

从几何学的角度而不是语义信息来重建声音到三维面部形状的能力进行研究，通过使用声音测量 - 面部范例识别可预测的面部测量特征并将其用于指导三维面部重建，消除了无法预测的面部测量特征的影响，从而使得面部几何学可操作。在我们提出的数据集上进行模型评估，发现声音与面部几何特征的特定部位（如鼻腔和颅骨）之间存在显著相关性，为声音 - 面部相关性提供了新的视角，并可作为人类测量学科的实证研究。

Jul, 2023

视音频生物特征匹配

本文研究了跨模态匹配，通过使用静态图像的人脸识别和声纹识别作为训练和测试数据集，使用 CNN 架构进行了二进制和多元交叉模态人脸和音频匹配，并比较了动态和静态测试，得出了 CNN 在此任务上表现优秀并超越了人类表现。

Apr, 2018

跨模态说话人验证和识别：多语种视角

本文介绍建立跨语言讲者的面孔和声音之间的关联，在多语言中回答面声关联是否是语言无关的，以及展示在多语言环境下语音特征识别的实验。

Apr, 2020

学习面孔和声音的关联

本文研究人类面孔与声音之间的关联，通过在线研究，在新建数据集上证实人们可以将未见过的面孔与对应的声音相关联，并且我们计算建模了面孔和声音之间的重叠信息，表明该跨模态表示包含足够的信息来识别匹配的面孔和声音，并且此表征具有与某些人口属性和从单一视觉或听觉模式获取的特征的相关性，我们发布了我们的音视数据集和人们朗读短文的人口学注释。

May, 2018

Speech2Face：学习声音背后的面容

本研究旨在利用数百万自然互联网 / YouTube 视频中的人物语音，建立和训练一个深度神经网络模型，以在不需要明确建模人物面部外貌特征的情况下，从个人短音频录音中重建面部图像，通过自我监督，研究模型如何识别人物的年龄、性别和种族。

May, 2019

通过受控自编码器生成与声音相对应的人脸

本研究提出了一种基于先前学习到的语音 - 面部相关性的引导自编码器框架，通过将目标面孔形态学变换来匹配语音信息，显著提高了人脸检索和识别的准确性。

Jul, 2021

VisualVoice: 跨模态一致性的音视频语音分离

提出一种基于面部出现和声音特征对语音进行分离的方法，可对五种基准数据集进行音视频语音分离和增强，而且具有较好的泛化性能。

Jan, 2021

MeshTalk: 通过跨模态分离实现从语音到三维面部动画

本文提出了一种利用音频生成三维面部动画的通用方法，该方法建立一个针对面部动画的分类潜空间，根据音频相关和不相关的信息进行信息分离，实现面部动画中高度逼真的运动合成结果，包括高准确度的唇部运动，以及未相关到音频信号的面部其他部位的合理动画，此方法在定性和定量方面均优于现有基线，且具有高逼真度。

Apr, 2021

寻找声音的形状：学习声音 - 面孔关联的自适应框架

本文提出了一个基于全局和局部信息的定位框架，其中引入了全局 loss 来处理学习困难度问题，并提出了动态重新加权机制来探索较难但有价值的身份。通过配对测试，验证和检索任务的实验，表明所提方法优于以往的方法。

Mar, 2021

音视频说话人验证基于联合交叉注意力

通过跨模态联合注意力来提升说话人验证的性能，进一步发掘音频和视觉融合在说话人验证领域的潜力。

Sep, 2023