可学习的 PINs：跨模态嵌入用于人员身份识别

ECCVMay, 2018

可学习的 PINs：跨模态嵌入用于人员身份识别

Learnable PINs: Cross-Modal Embeddings for Person Identity

Arsha Nagrani, Samuel Albanie, Andrew Zisserman

TL;DR本文提出并研究了一种敏感于身份的面部和声音联合嵌入，该嵌入可以从声音到面部和从面部到声音进行交叉模态检索，并展示了使用该联合嵌入自动检索和标记电视剧角色的应用。

Abstract

We propose and investigate an identity sensitive joint embedding of face and voice. Such an embedding enables cross-modal retrieval from voice to face and from face to voice. We make the following four contributi

identity sensitive joint embedding cross-modal retrieval curriculum learning schedule hard negative mining tv drama

发现论文，激发创造

使用跨模态自监督进行解缠语音嵌入

本文旨在学习说话者身份的表示，利用自我监督学习目标，在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构，从而在大规模的 “野外” 对话者数据集上进行训练，并展示了其对于标准说话者识别性能的良好效果。

Feb, 2020

视频和音频检索的跨模态嵌入

本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法，实现了跨模态特征学习的无监督方法，并得出了良好的检索结果。

Jan, 2018

视音频生物特征匹配

本文研究了跨模态匹配，通过使用静态图像的人脸识别和声纹识别作为训练和测试数据集，使用 CNN 架构进行了二进制和多元交叉模态人脸和音频匹配，并比较了动态和静态测试，得出了 CNN 在此任务上表现优秀并超越了人类表现。

Apr, 2018

通过跨模态迁移学习从面部嵌入中提高说话者转向嵌入

研究提出了三种跨领域学习方法，利用从面部嵌入空间中获得的知识，改进发言者方向嵌入学习，实验结果表明其在验证和音频聚类任务中均取得了显著进展。

Jul, 2017

通过跨模态嵌入增强明显人格特征分析

用深度神经网络进行多模态的自动个性化特征评估，以提高人机交互的质量。

May, 2024

通过对齐学习：利用跨模态对应关系进行可见光 - 红外人员再识别

本研究提出了一种新颖的特征学习框架，通过利用密集对应的交叉模态人物图像，像素级地抑制与模态相关的特征，从而更有效地促进交叉模态本地特征的判别式特征学习，从而解决了可见 - 红外人物重识别的问题。

Aug, 2021

基于递归融合的联合交叉注意力的音视频人员验证

通过递归融合的联合交叉关注模型和 BLSTMs，本研究有效地捕捉音频和视觉模态之间的内在和跨模态关系，显著提高了融合性能。

Mar, 2024

VisualVoice: 跨模态一致性的音视频语音分离

提出一种基于面部出现和声音特征对语音进行分离的方法，可对五种基准数据集进行音视频语音分离和增强，而且具有较好的泛化性能。

Jan, 2021

跨模态说话人验证和识别：多语种视角

本文介绍建立跨语言讲者的面孔和声音之间的关联，在多语言中回答面声关联是否是语言无关的，以及展示在多语言环境下语音特征识别的实验。

Apr, 2020

完美匹配：音频 - 视觉同步的改进型跨模态嵌入

该论文提出了一种新的跨模态嵌入学习策略，通过多路匹配问题学习嵌入，显著提升了音频到视频同步任务的表现，并用学习到的嵌入进行自我监督的视觉语音识别。

Sep, 2018