远场语音识别的神经盲分离和发言者划分

Jun, 2024

远场语音识别的神经盲分离和发言者划分

Neural Blind Source Separation and Diarization for Distant Speech Recognition

Yoshiaki Bando, Tomohiko Nakamura, Shinji Watanabe

TL;DR本文提出了一种神经方法，用于远程语音识别（DSR），它能够在没有隔离信号的监督情况下，同时分离和解麦克风混合的语音，并没有未知数量的活跃说话者。

Abstract

This paper presents a neural method for distant speech recognition (DSR) that jointly separates and diarizes speech mixtures without supervision by isolated signals. A standard separation method for multi-talker

neural method distant speech recognition guided source separation multichannel mixtures weakly-supervised

发现论文，激发创造

会议在线发言人分化的语音分离指导

我们介绍了一种新的基于语音分离引导的在线发言人分化方案，适用于持续变动的说话人数量的长时间会议录音。

Jan, 2024

使用 GMM 进行语音分离与 ASR

本文探讨语音分离和自动语音识别两个主题。我们使用高斯混合模型和距离阈值作为停止标准来实现语音分离，在自动语音识别方面通过分析语音信号并考虑声音频率达到最小化词错误率指标的目标。

Jul, 2023

完全监督的说话人分离

本文提出了一种全监督的说话人分离方法，称为无限交错状态循环神经网络（UIS-RNN），通过 RNN 建模不同说话人，运用了 ddCRP 解决未知说话人数量问题，并实现在线分离。在 NIST SRE 2000 CALLHOME 上，其检测率为 7.6%，优于现有最先进的基于谱聚类的分离方法。

Oct, 2018

联合优化掩码和深度循环神经网络进行单声源分离

该研究探索了使用掩蔽函数和深度递归神经网络进行单声道源分离任务（包括单声道语音分离，单声道歌唱声分离和语音去噪）的联合优化。与现有模型相比，我们的方法在评估数据集中的任务中表现良好，并实现了较大的音频性能提升。

Feb, 2015

探索自监督学习表征中的语音分离与识别集成

深度学习在语音分离方面的应用及其对多说话人语音识别的整合进行了深入研究，并提出了一种通过复杂谱映射和自监督学习表示进行的训练策略，从而在噪声和混响环境下显著提升多说话人语音识别性能。

Jul, 2023

深度神经网络用于单通道信号分离

本文提出了一种使用深度神经网络架构的单通道源分离方法，通过在分离过程中确定 DNN 来分类估计的源谱图以检查其有效性，并将混合信号频谱鼓励写成估计的源谱图的加权和，实现了单通道源分离问题的能量最小化。

Nov, 2013

利用空间选择性深度非线性滤波器的多通道语音分离

本文中我们提出了基于深度神经网络和循环神经网络的空间选择性滤波器 (SSF)，在多扬声器多声道分离任务中，可以从混合信号中提取出特定说话者的声音信息，并与直接分离方法进行了比较。结果表明，SSF 具有更好的空间信息利用和泛化能力。

Apr, 2023

训练学习的潜在目标，进行两步声源分离

本文提出了一种基于深度神经网络的源分离的两阶段训练方案，第一步学习将信号转换为使掩蔽分离性能最优的潜在空间，第二步训练在学习空间中操作的分离模块，并使用了一个可缩放失真比的 SI-SDR 损失函数来证明优化效果。通过各种声音分离实验，该方法可以比联合学习变换和分离模块的系统获得更好的表现。

Oct, 2019

利用超定训练混合物的无监督神经语音分离

在混响条件下，提出了一种使用深度神经网络进行无监督语音分离的算法，通过多个麦克风同时收集到的语音混合信号计算线性滤波器，使得所有说话者的估计信号在所有麦克风中加起来等于混合信号。此算法需要使用超定训练混合物，并通过降低源内幅度分散的损失来解决频率置换问题。实验结果表明，该算法在混响条件下对两个说话者的分离效果较好。

May, 2023

音源分离基于潜在变分分块解缠

混合经典数字信号处理 / 深度神经网络的方法用于源分离任务，通过设计合理的潜在空间，将单通道欠定的源分离问题转化为等效的多通道过定的问题，并使用变分块间分离表征混合信号，通过经典信号处理理论结果的启发，提出可靠性更强、过拟合风险降低的模型。

Feb, 2024