多模态多通道目标语音分离

Mar, 2020

Multi-modal Multi-channel Target Speech Separation

Rongzhi Gu, Shi-Xiong Zhang, Yong Xu, Lianwu Chen, Yuexian Zou...

TL;DR通过利用目标说话者的空间位置、声音特征和唇部运动，本研究提出了一种通用的多模态框架来实现目标语音分离，并探讨了多模态联合建模的融合方法。通过实验验证，该方法在真实情况下的强鲁棒性表现显著优于单模和双模语音分离方法，同时可支持实时处理。

Abstract

target speech separation refers to extracting a target speaker's voice from an overlapped audio of simultaneous talkers. Previously the use of visual modality for target speech separation has demonstrated great p

target speech separation multi-modal framework factorized attention-based fusion acoustic subspaces real-time processing

发现论文，激发创造

时域音视频语音分离

本文介绍了一种新的时间域音视图架构，用于从单声道混合物中提取目标说话人，实验结果表明，相比于仅有声音的 TasNet 和频域音 - 视网络，我们的方法在两个和三个说话人的情况下分别可以提供 3dB + 和 4dB + 的信噪比改进。

Apr, 2019

音频 - 视觉交叉模态条件语音提取中的分离

AVSepChain 是一种多模态学习方法，通过将音频 - 视觉目标语音提取任务分为两个阶段（语音感知和语音产生），改善了模态不平衡的问题，并引入了对比语义匹配损失函数来确保生成的语音与语音产生阶段的唇部运动所传达的语义信息一致，实验结果表明该方法在多个基准数据集上具有卓越的性能。

Apr, 2024

多模态相关性学习：用于主动说话人检测和语音增强的方法

提出了一个统一框架，通过视听联合建模来实现目标说话人检测和语音增强，以建立音频 - 视觉任务中的多模态关联。

Mar, 2022

时空神经滤波器：方向感知的端对端多通道目标语音分离

本文提出了一种时空神经滤波器，通过方向信息的辅助作用，从具有混响的多人语音混合物中直接估计目标语音波形，以提高目标和干扰源之间的时域、频域和空域可辨识度，并设计了一种全卷积自动编码器框架用于快速和端到端的语音分离处理。

Jan, 2020

基于深度学习的音视频语音增强和分离概述

本文系统综述了基于深度学习的音视频语音增强和分离技术，特别关注了声学和视觉特征、深度学习方法、融合技术以及训练目标和目标函数。同时，还回顾了基于深度学习的无声视频语音重建和语音信号分离的常见方法，并介绍了常用的音视频数据集和评估方法。

Aug, 2020

端到端音视频语音识别的模态注意力

该研究提出了一种基于多模态注意力的音视频语音识别方法，该方法使用了最先进的 Seq2seq 架构，基于它们的重要性自动学习了来自两种模态的混合表示，并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高，相比传统的特征级联方法，在清洁和嘈杂的条件下均能获得更好的识别性能，可以轻松地推广到其他多模态任务中。

Nov, 2018

基于双模态语义相似性的弱监督音频分离

通过在训练期间无需访问单一源声音数据而对多源音频混合进行有条件的声音分离是一个长期存在的挑战。本文提出了一个能够改进现有无监督框架以在目标模态（即音频）中使用条件模态（即语言）中的易于分离的相应信号分离单源信号的通用双模分离框架。我们的实验证明，如果我们可以访问两个模态之间（即 CLAP）的预训练联合嵌入模型，这是可以实现的。另外，我们还在两个基本场景中将我们的框架纳入进行了改进，通过减小训练样本和测试样本之间的分布差异，我们的方法显著提高了纯无监督基准的性能，并且在信噪比（SDR）方面可以实现 71％的提升，达到了有监督学习性能的 97.5％。我们还展示了通过我们提出的弱监督框架扩充有监督学习本身，可以进一步提高性能，使其成为强大的半监督音频分离框架。

Apr, 2024

实时双耳语音分离并保留空间提示

本文提出了一种基于 TasNet 的多输入多输出的语音分离算法，该算法能够保留声源的空间信息，实现实时修改声学场景，并在不同声学场景中显著改善分离性能并保持位置感知。

Feb, 2020

深度多模态学习用于音视频语音识别

本文介绍深度多模态学习的方法，用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明，使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。

Jan, 2015

基于时空贝叶斯融合的音视频说话人分离

本文介绍了一种音视频 “位置时间标记” 模型，其中多人视觉跟踪与多重语音源定位相结合，通过一种音视频融合方法对话音频信号进行了分离，从而能够同时处理多人的语音信号。该模型在多方交互的情况下处理多人同时发出的语音信号，解决了多人语音辨别问题。

Mar, 2016