使用深度聚类的单通道多说话者声音分离

Jul, 2016

使用深度聚类的单通道多说话者声音分离

Single-Channel Multi-Speaker Separation using Deep Clustering

Yusuf Isik, Jonathan Le Roux, Zhuo Chen, Shinji Watanabe, John R. Hershey

TL;DR本文使用基于深度学习的深度聚类方法及信号逼近技术，改进基线深度聚类算法，显著补偿了音频信号分离中的低信噪比问题，实现了在多说话人场景下的语音信号分离，通过自动语音识别实验，该算法在混响背景下将语音识别错误率从 89.1% 降至 30.8%，有效解决了鸡尾酒会效应问题。

Abstract

deep clustering is a recently introduced deep learning architecture that uses discriminatively trained embeddings as the basis for clustering. It was recently applied to spectrogram segmentation, resulting in imp

deep clustering spectrogram segmentation speech separation end-to-end training signal approximation

发现论文，激发创造

深度聚类：用于分割和分离的判别嵌入

本文提出了一种称为 “深度聚类” 的深度学习框架，通过使用光谱图嵌入进行声源分离，从而实现类无关的信号分离，大大降低了领域分割成本，并且不依靠类别给出类标签，具有将不同源集合的潜力。

Aug, 2015

深度聚类和传统网络用于音乐分离：攜手更強大

本文探讨了 Deep clustering 在音频和音乐源分离任务中的表现，发现其优于传统网络，同时也成功地将其与传统网络可拼接在一起，构建出一个更为强大的混合网络。

Nov, 2016

基于深度吸引子网络的说话人无关语音分离

提出了一种新的深度学习框架来解决混合谱中时域 - 频域混淆的问题并有效恢复说话者语音，其中将混合信号的时频表示投影到高维嵌入空间，并为每个说话者创建一个参考点吸引器，并将说话者的嵌入向量强制聚集到其相应的吸引器点附近，该方法在 Wall Street Journal 数据集上表现出与其他最先进的深度学习方法相媲美甚至更好的性能。

Jul, 2017

深度吸引子网络用于单麦克风说话人分离

本研究提出了一种基于深度学习的语音分离框架，通过在高维嵌入空间中创建引子点，将混合物中的不同来源对应的时间 - 频率区间聚合在一起。该模型通过最小化嵌入的重建误差来优化。与之前的工作不同，本模型实现了端到端的培训，不依赖混合介质中源的数量，并在测试时间尝试了两种策略，K-means 和固定吸引子点，后者无需后处理即可实时实现。在华尔街日报数据集上评估了该系统并优于之前的最优方法 5.49％。

Nov, 2016

多通道盲源分离的深度聚类模型无监督训练

提出了一种通过无监督的空间聚类算法训练深度聚类系统，从而在没有并行清洁数据时从头训练基于神经网络的源分离算法的方案。

Apr, 2019

通过说话人聚类的端到端语音分离算法 Wavesplit

Wavesplit 是一种端到端的源分离系统，可以通过聚类推断每个源的表示，并给出估计的源信号，从而重新定义干净的混合 2 或 3 个讲话者（WSJ0-2/3mix）以及嘈杂和混响环境（WHAM/WHAMR）的最新技术水平。

Feb, 2020

Deep Speaker: 一种端到端的神经说话人嵌入系统

Deep Speaker 是一种神经说话人嵌入系统，可以将话语映射到一个超球上，在此球上，通过余弦相似度来度量说话人的相似性。该系统通过采用 ResCNN 和 GRU 架构提取声学特征，然后通过平均池化生成话语级别的说话人嵌入，并使用基于余弦相似度的三元组损失进行训练。实验表明，Deep Speaker 优于基于 DNN 的 i 矢量基线，在三个不同数据集上表现出色，还表明适应普通话训练的模型可以提高对英语说话人的识别精度。

May, 2017

基于对比学习和深度模块化的语音分离

研究使用对比学习建立框架的表示，并使用学到的表示在下游深度模块化任务中，自监督学习以最小化属于给定说话者的框架之间的距离，以进行语音分离。通过 WSJ0-2mix 和 WSJ0-3mix 的评估，该技术的性能不会随着说话者数量的增加而显着降低。

May, 2023

使用声音分类改进通用声音分离

本文研究基于深度学习、语义嵌入和分类网络应用于通用声源分离，并成功建立了新的最先进的模型，从而提高了声源分离的性能。

Nov, 2019

使用双自编码器网络的深度谱聚类

本文提出了一种联合学习框架，通过使用双自编码器网络将输入嵌入到潜在空间中，利用相互信息估计从输入中提供更具区分性的信息，并应用深度谱聚类方法将潜在表示嵌入到特征空间中并聚类，证明该方法在基准数据集上显著优于现有的聚类方法。

Apr, 2019