使用 BGRU 和 GMM 改进深度吸引网络用于语音分离

Aug, 2023

使用 BGRU 和 GMM 改进深度吸引网络用于语音分离

Improving Deep Attractor Network by BGRU and GMM for Speech Separation

Rawad Melhem, Assef Jafar, Riad Hamadeh

TL;DR提出了一种使用双向门控神经网络（BGRU）来简化和增强深度吸引子网络（DANet）模型的方法，使用高斯混合模型（GMM）作为聚类算法，以降低复杂度并提高学习速度和准确性。对 TIMIT 语料库中的混合语音数据集进行了实验评估，该模型在 SDR 和 PESQ 分数上分别达到 12.3 dB 和 2.94，表现优于原始 DANet 模型。

Abstract

deep attractor network (DANet) is the state-of-the-art technique in speech separation field, which uses Bidirectional Long Short-Term Memory (BLSTM), but the complexity of the DANet model is very high. In this paper, a simplified and powerful DANet model is proposed using →

deep attractor network speech separation bidirectional gated neural network gaussian mixture model clustering algorithm

发现论文，激发创造

使用深度聚类的单通道多说话者声音分离

本文使用基于深度学习的深度聚类方法及信号逼近技术，改进基线深度聚类算法，显著补偿了音频信号分离中的低信噪比问题，实现了在多说话人场景下的语音信号分离，通过自动语音识别实验，该算法在混响背景下将语音识别错误率从 89.1% 降至 30.8%，有效解决了鸡尾酒会效应问题。

Jul, 2016

远场语音识别的神经盲分离和发言者划分

本文提出了一种神经方法，用于远程语音识别（DSR），它能够在没有隔离信号的监督情况下，同时分离和解麦克风混合的语音，并没有未知数量的活跃说话者。

Jun, 2024

一种高效的编码器 - 解码器体系结构，具有自上而下的注意力，用于语音分离

本文提出了一种模拟大脑自上而下关注机制的、模型复杂度较低但表现优异的基于编码器 - 解码器的深度神经网络架构 TDANet，并在三个基准数据集上验证其高效性和有效性。

Sep, 2022

利用全局注意力和本地循环网络进行有效的低成本时域音频分离

通过使用自我关注机制和在分维度上的特征序列处理，设计了一种低成本、高性能的全局关注局部循环 (GALR) 网络，并在三个数据集上实现了相对于 DPRNN 的显著绝对改进，同时相对 DPRNN 降低了运行时内存使用和计算操作次数。

Jan, 2021

使用双判别器对去噪扩散模型进行对抗训练的高保真多说话人 TTS

通过在扩散模型中引入两个辨别器（扩散辨别器和频谱图辨别器），我们提出了一种音频合成模型，其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS，并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。

Aug, 2023

深度吸引子网络用于单麦克风说话人分离

本研究提出了一种基于深度学习的语音分离框架，通过在高维嵌入空间中创建引子点，将混合物中的不同来源对应的时间 - 频率区间聚合在一起。该模型通过最小化嵌入的重建误差来优化。与之前的工作不同，本模型实现了端到端的培训，不依赖混合介质中源的数量，并在测试时间尝试了两种策略，K-means 和固定吸引子点，后者无需后处理即可实时实现。在华尔街日报数据集上评估了该系统并优于之前的最优方法 5.49％。

Nov, 2016

基于深度吸引子网络的说话人无关语音分离

提出了一种新的深度学习框架来解决混合谱中时域 - 频域混淆的问题并有效恢复说话者语音，其中将混合信号的时频表示投影到高维嵌入空间，并为每个说话者创建一个参考点吸引器，并将说话者的嵌入向量强制聚集到其相应的吸引器点附近，该方法在 Wall Street Journal 数据集上表现出与其他最先进的深度学习方法相媲美甚至更好的性能。

Jul, 2017

SAGRNN：自我注意门控循环神经网络在双耳说话人分离中保留双耳线索

本研究使用深度学习技术改进双耳扬声器分离系统，通过引入自我关注机制和密集连接，保留相互耳提示信息，得到比最近的分离方法更好的性能，且提高了声音定位准确度。

Sep, 2020

联合优化掩码和深度循环神经网络进行单声源分离

该研究探索了使用掩蔽函数和深度递归神经网络进行单声道源分离任务（包括单声道语音分离，单声道歌唱声分离和语音去噪）的联合优化。与现有模型相比，我们的方法在评估数据集中的任务中表现良好，并实现了较大的音频性能提升。

Feb, 2015

端到端音视频语音识别

本文提出了一种基于残差网络和双向门控循环单元 (BGRU) 的端到端视听模型，该模型是第一个在大型公开数据集 (LRW) 上学习直接从图像像素和音频波形提取特征并进行语境内单词识别的视听融合模型，并取得了比端到端仅音频模型和基于 MFCC 的模型更好的分类效果。

Feb, 2018