对齐之后融合：通过多模态编码器来提高人脸 - 声音相关性学习

Apr, 2024

对齐之后融合：通过多模态编码器来提高人脸 - 声音相关性学习

Fuse after Align: Improving Face-Voice Association Learning via Multimodal Encoder

Chong Peng, Liqiang He, Dan Su

TL;DR利用对比学习和二分类问题，通过多模态编码器学习内嵌信息，引入有效的配对选择方法，提高语音 - 面部关联的匹配、验证和检索任务的学习结果。

Abstract

Today, there have been many achievements in learning the association between voice and face. However, most previous work models rely on cosine similarity or L2 distance to evaluate the likeness of voices and faces following contrastive learning, subsequently applied to retrieval and matching tasks. This method only considers the embeddings as high-dimensiona

voice-face associations contrastive learning multimodal encoder binary classification pair selection method

发现论文，激发创造

寻找声音的形状：学习声音 - 面孔关联的自适应框架

本文提出了一个基于全局和局部信息的定位框架，其中引入了全局 loss 来处理学习困难度问题，并提出了动态重新加权机制来探索较难但有价值的身份。通过配对测试，验证和检索任务的实验，表明所提方法优于以往的方法。

Mar, 2021

在单个 GPU 上的数据有效多模态融合

FuseMix 是一种多模态增强方案，在任意预训练的单模态编码器的潜空间上操作，通过使用 FuseMix 进行多模态对齐，我们以远低于 CLIP 的计算和数据成本，在图像 - 文本和音频 - 文本检索任务中实现具有竞争力的性能。

Dec, 2023

学习面孔和声音的关联

本文研究人类面孔与声音之间的关联，通过在线研究，在新建数据集上证实人们可以将未见过的面孔与对应的声音相关联，并且我们计算建模了面孔和声音之间的重叠信息，表明该跨模态表示包含足够的信息来识别匹配的面孔和声音，并且此表征具有与某些人口属性和从单一视觉或听觉模式获取的特征的相关性，我们发布了我们的音视数据集和人们朗读短文的人口学注释。

May, 2018

揭示视听早期融合变压器的强大力量：通过遮蔽建模实现密集交互

本文介绍了使用掩模重建框架和基于注意力的融合模块来训练早期融合的音频 - 视觉编码器，以实现高效深度集成的音频 - 视觉模型。实验证明该方法在音频事件分类、视觉声音定位、音频分离和音频 - 视觉分割方面表现优越，极大地推动了早期融合架构的应用。

Dec, 2023

通过唇语子词相关性进行视觉预训练和交叉模态融合编码的提高音频视觉语音识别

本文提出了两种新技术来改善音视频语音识别，通过利用口型和音节级次字单元之间的相关性来建立良好的帧级音节边界并实现准确定位，以及利用音频引导的跨模态融合编码器神经网络来充分利用模态互补性。实验结果表明，使用相对较少的训练数据，该系统比复杂的前端和后端现有系统取得更好的性能。

Aug, 2023

可学习的 PINs：跨模态嵌入用于人员身份识别

本文提出并研究了一种敏感于身份的面部和声音联合嵌入，该嵌入可以从声音到面部和从面部到声音进行交叉模态检索，并展示了使用该联合嵌入自动检索和标记电视剧角色的应用。

May, 2018

音视频说话人验证基于联合交叉注意力

通过跨模态联合注意力来提升说话人验证的性能，进一步发掘音频和视觉融合在说话人验证领域的潜力。

Sep, 2023

视音频生物特征匹配

本文研究了跨模态匹配，通过使用静态图像的人脸识别和声纹识别作为训练和测试数据集，使用 CNN 架构进行了二进制和多元交叉模态人脸和音频匹配，并比较了动态和静态测试，得出了 CNN 在此任务上表现优秀并超越了人类表现。

Apr, 2018

身份验证任务中音频 - 视觉融合架构的行为分析

我们训练了一个身份验证架构，并评估了该模型合并音频和视觉表示的部分的修改，包括在要比较的两个示例中的任何一个输入缺失的情况下。我们在 Voxceleb1-E 测试集上报告的结果表明，在全模态设置和一个单模态缺失时，对输出嵌入进行平均可以改善错误率，并更充分地利用嵌入空间，这比使用共享层的系统更具优势，并讨论了可能的原因。

Nov, 2023

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020