语音与人脸跨模态匹配的不相交映射网络

Jul, 2018

语音与人脸跨模态匹配的不相交映射网络

Disjoint Mapping Network for Cross-modal Matching of Voices and Faces

Yandong Wen, Mahmoud Al Ismail, Weiyang Liu, Bhiksha Raj, Rita Singh

TL;DR提出了一种新的框架，称为 Disjoint Mapping Network (DIMNet)，用于跨模态生物识别匹配，特别是声音和面部。DIMNet 通过将它们分别映射到它们的共同协变量，学习了不同模态的共享表示，从而找到模态之间的对应关系，并且证明了 DIMNet 能够比其他现有方法具有更好的性能，而且在概念上更简单且不需要过多的数据。

Abstract

We propose a novel framework, called disjoint mapping network (DIMNet), for cross-modal biometric matching, in particular of voices and

cross-modal biometric matching disjoint mapping network voices faces shared representations

发现论文，激发创造

音频和视觉信号的跨模态映射的深度潜在空间学习

该论文提出了一种新颖的深度学习算法，通过单流网络和新的损失函数来实现音频和视觉信息的联合表示，并使用类中心对共享的深层潜在空间表示进行表征，以实现无需成对或三重监督。在 VoxCeleb 数据集上的多种任务中进行了定量和定性评估，在跨模式验证和匹配方面实现了最先进的性能，验证了该技术在跨模式生物认证应用中的有效性。

Sep, 2019

视音频生物特征匹配

本文研究了跨模态匹配，通过使用静态图像的人脸识别和声纹识别作为训练和测试数据集，使用 CNN 架构进行了二进制和多元交叉模态人脸和音频匹配，并比较了动态和静态测试，得出了 CNN 在此任务上表现优秀并超越了人类表现。

Apr, 2018

面向基于检索的聊天机器人的个性化响应选择的双重交互匹配网络

本文提出了一种具有双重交互匹配的匹配网络 (DIM)，用于在基于检索的聊天机器人中展示对话代理的个性。实验结果表明，DIM 模型以及其双交互匹配优于基线模型，即带有人物融合的 IMN，的精度提高 14.5％，并且在 top-1 的准确性 hits@1 方面优于当前最先进的模型。

Aug, 2019

可学习的 PINs：跨模态嵌入用于人员身份识别

本文提出并研究了一种敏感于身份的面部和声音联合嵌入，该嵌入可以从声音到面部和从面部到声音进行交叉模态检索，并展示了使用该联合嵌入自动检索和标记电视剧角色的应用。

May, 2018

MODA: 双重关注音频驱动的人像动画的一次映射

本文提出了一个统一的系统，用于多人、多样性和高保真度的说话肖像生成，并通过对嘴部运动的准确编码和多样性的双注意力模块设计以及稳定视频合成呈现出更加自然和真实的视频肖像。

Jul, 2023

跨模态判别式网络的音视频说话人识别

使用跨模态网络 VFNet（Voice-Face Disciminative Network）来建立人类语音和面部之间的关系，辅助音视觉说话人识别，相较于 2019 年 NIST SRE 中评估集的基准音视频融合，VFNet 实现了 16.54% 相对的准确率降低。

Aug, 2020

基于多原型网络的非约束集合人脸识别

本文研究了非约束性基于集合的人脸识别问题，提出了一种新颖的多原型网络模型，该模型从媒体集合中自适应地学习多个原型人脸表示，通过密集子图学习子网来隐式地解开不一致的媒体，并学习一些代表原型。定量和定性实验清楚地证明了这种方法在状态 - 艺术上的优越性。

Feb, 2019

跨模态人脸识别的深度感知映射

本文提出了一种利用深度神经网络来捕捉 2 种不同模式下人脸匹配问题的非线性映射关系，以达到跨模式人脸匹配的目的，并在 3 个数据集上获得了相当大的识别率提升。

Jan, 2016

神经网络交叉模态映射真的能够桥接视觉和语言么？

该论文提出新的相似度衡量方法和两个实验，揭示了通过神经网络进行模态之间的映射所得到的预测向量的周围结构更像输入向量而不是目标向量，并且没有训练的网络不会显著破坏输入向量的语义结构。

May, 2018

异构人脸识别的解耦变分表示

本文提出了一种利用 Disentangled Variational Representation (DVR) 进行 NIR 和 VIS 模态匹配的方法，在生成具有内在身份信息和内部变化的脸部表示的基础上，通过探索解缠绕潜变量空间，使用变分下界对 NIR 和 VIS 表示进行优化，取得了较大的改进。

Sep, 2018