深度聚类:用于分割和分离的判别嵌入
本文使用基于深度学习的深度聚类方法及信号逼近技术,改进基线深度聚类算法,显著补偿了音频信号分离中的低信噪比问题,实现了在多说话人场景下的语音信号分离,通过自动语音识别实验,该算法在混响背景下将语音识别错误率从 89.1% 降至 30.8%,有效解决了鸡尾酒会效应问题。
Jul, 2016
该论文介绍一种使用深度聚类和深度吸引子网络的方法,将音乐混合中的所有乐器的时频图嵌入到一个共同的嵌入空间中,并使用混合高斯模型生成参数,从而实现对音乐源的分离,同时嵌入空间具有易于解释性。
Nov, 2018
本文提出了一种联合学习框架,通过使用双自编码器网络将输入嵌入到潜在空间中,利用相互信息估计从输入中提供更具区分性的信息,并应用深度谱聚类方法将潜在表示嵌入到特征空间中并聚类,证明该方法在基准数据集上显著优于现有的聚类方法。
Apr, 2019
本文探讨了 Deep clustering 在音频和音乐源分离任务中的表现,发现其优于传统网络,同时也成功地将其与传统网络可拼接在一起,构建出一个更为强大的混合网络。
Nov, 2016
提出了一种新的深度学习框架来解决混合谱中时域 - 频域混淆的问题并有效恢复说话者语音,其中将混合信号的时频表示投影到高维嵌入空间,并为每个说话者创建一个参考点吸引器,并将说话者的嵌入向量强制聚集到其相应的吸引器点附近,该方法在 Wall Street Journal 数据集上表现出与其他最先进的深度学习方法相媲美甚至更好的性能。
Jul, 2017
本研究提出了一种基于深度学习的语音分离框架,通过在高维嵌入空间中创建引子点,将混合物中的不同来源对应的时间 - 频率区间聚合在一起。该模型通过最小化嵌入的重建误差来优化。与之前的工作不同,本模型实现了端到端的培训,不依赖混合介质中源的数量,并在测试时间尝试了两种策略,K-means 和固定吸引子点,后者无需后处理即可实时实现。在华尔街日报数据集上评估了该系统并优于之前的最优方法 5.49%。
Nov, 2016
该论文提出了一种利用深度自编码器进行无监督音频源分离的新框架,在适当配置的自编码器的帮助下,通过对编码器向量进行聚类,自动分离混合输入中未知源信号的特征。通过调查权重向量并对激活系数在代码层进行聚类,观察了频域中音频信号的原始组件。通过使用属于不同聚类的代码向量,分离并重构原始源声音。虽然回复的音频不是完美的,但在许多实际应用中可能会产生有希望的结果。
Dec, 2014
该研究论文提出了两种新的方法,一种基于函数分析原则和核方法,另一种是基于训练优化原则变分损失的深度网络,以构建数据的谱嵌入,并提供了一个新的采样算法,以在单个步骤中利用学习的表示来生成新样本。
Jun, 2023
本篇论文提出了一种名为 SpectralNet 的深度学习方法,通过在大量的未标注数据上训练,将输入的数据转换为与其相连的图拉普拉斯矩阵的特征空间的向量,并成功地应用于谱聚类,实现了对谱聚类中可扩展性以及广义化转化的双重突破。
Jan, 2018