多模态相关性学习：用于主动说话人检测和语音增强的方法

Mar, 2022

多模态相关性学习：用于主动说话人检测和语音增强的方法

Look\&Listen: Multi-Modal Correlation Learning for Active Speaker Detection and Speech Enhancement

Junwen Xiong, Yu Zhou, Peng Zhang, Lei Xie, Wei Huang...

TL;DR提出了一个统一框架，通过视听联合建模来实现目标说话人检测和语音增强，以建立音频 - 视觉任务中的多模态关联。

Abstract

active speaker detection and speech enhancement have become two increasingly attractive topics in audio-visual scenario understanding. According to their respective characteristics, the scheme of independently de

active speaker detection speech enhancement audio-visual multi-task learning cross-modal relationship joint learning of audio-visual modeling

发现论文，激发创造

MAAS: 多模态分配用于活跃说话人检测

本文提出了将图形数据结构应用于音频和视觉信号融合的新方法，将多模式的音视频特征分配给先前检测到的语音事件，实现了 88.8％的 AV-ActiveSpeaker 数据集性能最优。

Jan, 2021

音视频说话人验证基于联合交叉注意力

通过跨模态联合注意力来提升说话人验证的性能，进一步发掘音频和视觉融合在说话人验证领域的潜力。

Sep, 2023

深度多模态学习用于音视频语音识别

本文介绍深度多模态学习的方法，用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明，使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。

Jan, 2015

记忆中的多模态联想桥接：从面部视频中回溯语音声音

本文提出了一种新颖的音频 - 视觉多模态桥接框架，它可以利用音频和视觉信息，并通过 associative bridge 从记忆网络中获取目标模态表示，将其应用于唇语阅读和静音视频的语音重建，具有当前最先进性能。

Apr, 2022

跨模态监督学习视频中的活动发言者检测

本文利用音频监督视频中活跃讲话者检测的学习，通过声音活动检测 (VAD) 以弱监督的方式指导基于视觉的分类器学习。使用时空特征进行分类，学习人特定的模型以及在线适应性的改进，利用时间连续性克服了缺乏干净训练数据的问题。通过跨模态学习，不需要监督，将知识从一种模式传递到另一种模式，建立了自学习活跃讲话者检测系统。

Mar, 2016

时域音视频语音分离

本文介绍了一种新的时间域音视图架构，用于从单声道混合物中提取目标说话人，实验结果表明，相比于仅有声音的 TasNet 和频域音 - 视网络，我们的方法在两个和三个说话人的情况下分别可以提供 3dB + 和 4dB + 的信噪比改进。

Apr, 2019

观看、听取与叙述：多模态弱监督密集事件字幕生成

本文研究了多模态学习中的音频 - 视觉相关性，并使用该方法在视频中探讨弱监督下的活动密集事件字幕问题，通过实验证明了提出的多模态方法优于单模态方法，同时验证了特定功能表示和体系结构设计的选择。

Sep, 2019

多模态 LSTM 的发言人识别技术 - 看、听、学习

本文提出了一种新颖的多模态长短时记忆结构 (MLSTM)，它可以无缝整合来自视频序列的视觉和听觉信息，建模人脸和声音之间的时间依赖关系，从而提高语音识别的鲁棒性和识别精度。

Feb, 2016

多模态多通道目标语音分离

通过利用目标说话者的空间位置、声音特征和唇部运动，本研究提出了一种通用的多模态框架来实现目标语音分离，并探讨了多模态联合建模的融合方法。通过实验验证，该方法在真实情况下的强鲁棒性表现显著优于单模和双模语音分离方法，同时可支持实时处理。

Mar, 2020

视频中音频 - 视觉讲话者定位对空间音效重现的应用

通过使用多通道音频和视觉模式，本研究比较了传统的音频 - 视觉方法和单声道音频的活跃说话者检测方法，在位置元数据提取和空间准确性上取得了显著改进。未来的研究将评估该模型在嘈杂和高混响环境中的稳健性，并解决离屏说话者的问题。

Jun, 2024