本文旨在学习说话者身份的表示,利用自我监督学习目标,在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构,从而在大规模的 “野外” 对话者数据集上进行训练,并展示了其对于标准说话者识别性能的良好效果。
Feb, 2020
本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法,实现了跨模态特征学习的无监督方法,并得出了良好的检索结果。
Jan, 2018
本文研究了跨模态匹配,通过使用静态图像的人脸识别和声纹识别作为训练和测试数据集,使用 CNN 架构进行了二进制和多元交叉模态人脸和音频匹配,并比较了动态和静态测试,得出了 CNN 在此任务上表现优秀并超越了人类表现。
Apr, 2018
研究提出了三种跨领域学习方法,利用从面部嵌入空间中获得的知识,改进发言者方向嵌入学习,实验结果表明其在验证和音频聚类任务中均取得了显著进展。
Jul, 2017
用深度神经网络进行多模态的自动个性化特征评估,以提高人机交互的质量。
May, 2024
本研究提出了一种新颖的特征学习框架,通过利用密集对应的交叉模态人物图像,像素级地抑制与模态相关的特征,从而更有效地促进交叉模态本地特征的判别式特征学习,从而解决了可见 - 红外人物重识别的问题。
Aug, 2021
通过递归融合的联合交叉关注模型和 BLSTMs,本研究有效地捕捉音频和视觉模态之间的内在和跨模态关系,显著提高了融合性能。
Mar, 2024
提出一种基于面部出现和声音特征对语音进行分离的方法,可对五种基准数据集进行音视频语音分离和增强,而且具有较好的泛化性能。
Jan, 2021
本文介绍建立跨语言讲者的面孔和声音之间的关联,在多语言中回答面声关联是否是语言无关的,以及展示在多语言环境下语音特征识别的实验。
Apr, 2020
该论文提出了一种新的跨模态嵌入学习策略,通过多路匹配问题学习嵌入,显著提升了音频到视频同步任务的表现,并用学习到的嵌入进行自我监督的视觉语音识别。
Sep, 2018