本文提出了一种新颖的多模态长短时记忆结构 (MLSTM),它可以无缝整合来自视频序列的视觉和听觉信息,建模人脸和声音之间的时间依赖关系,从而提高语音识别的鲁棒性和识别精度。
Feb, 2016
使用多模态元数据进行语种识别,证明视频标题、描述和地理位置等元数据对语种识别的贡献,并在两个不同的 YouTube 视频数据集上获得了最先进的语种识别结果,并进行了基于模态的贡献度分析。
Sep, 2023
本文提出了将图形数据结构应用于音频和视觉信号融合的新方法,将多模式的音视频特征分配给先前检测到的语音事件,实现了 88.8%的 AV-ActiveSpeaker 数据集性能最优。
Jan, 2021
提出了一个统一框架,通过视听联合建模来实现目标说话人检测和语音增强,以建立音频 - 视觉任务中的多模态关联。
Mar, 2022
本文研究了跨模态匹配,通过使用静态图像的人脸识别和声纹识别作为训练和测试数据集,使用 CNN 架构进行了二进制和多元交叉模态人脸和音频匹配,并比较了动态和静态测试,得出了 CNN 在此任务上表现优秀并超越了人类表现。
Apr, 2018
通过用从多通道音频中提取的空间输入特征进行训练的简单音频卷积循环神经网络(CRNN),可以独立于视觉模态进行同时水平活动说话者检测和定位(ASDL),超越典型的音频 - 视觉方法的性能并产生竞争性结果的成本昂贵的传统监督式训练。
Dec, 2023
本文介绍建立跨语言讲者的面孔和声音之间的关联,在多语言中回答面声关联是否是语言无关的,以及展示在多语言环境下语音特征识别的实验。
Apr, 2020
通过使用多通道音频和视觉模式,本研究比较了传统的音频 - 视觉方法和单声道音频的活跃说话者检测方法,在位置元数据提取和空间准确性上取得了显著改进。未来的研究将评估该模型在嘈杂和高混响环境中的稳健性,并解决离屏说话者的问题。
Jun, 2024
本文提出了使用已有的人脸标记检测器生成时间 - 频率蒙版来提高多人交谈环境下的语音增强过程,其结果表明,我们的模型是在有限的 GRID 和 TCD-TIMIT 数据集上进行培训和评估的首个能够实现在多人交谈环境中实现独立于发言人的语音增强的模型。
Nov, 2018
漫画处理中的角色识别和对话者预测是至关重要的,本研究提出了一种零样本方法,利用未注释的漫画图像单独识别角色和预测说话者名称,并通过一个迭代的多模态框架进行实验验证。
Apr, 2024