使用 BGRU 和 GMM 改进深度吸引网络用于语音分离
本文使用基于深度学习的深度聚类方法及信号逼近技术,改进基线深度聚类算法,显著补偿了音频信号分离中的低信噪比问题,实现了在多说话人场景下的语音信号分离,通过自动语音识别实验,该算法在混响背景下将语音识别错误率从 89.1% 降至 30.8%,有效解决了鸡尾酒会效应问题。
Jul, 2016
本文提出了一种模拟大脑自上而下关注机制的、模型复杂度较低但表现优异的基于编码器 - 解码器的深度神经网络架构 TDANet,并在三个基准数据集上验证其高效性和有效性。
Sep, 2022
通过使用自我关注机制和在分维度上的特征序列处理,设计了一种低成本、高性能的全局关注局部循环 (GALR) 网络,并在三个数据集上实现了相对于 DPRNN 的显著绝对改进,同时相对 DPRNN 降低了运行时内存使用和计算操作次数。
Jan, 2021
通过在扩散模型中引入两个辨别器(扩散辨别器和频谱图辨别器),我们提出了一种音频合成模型,其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS,并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。
Aug, 2023
本研究提出了一种基于深度学习的语音分离框架,通过在高维嵌入空间中创建引子点,将混合物中的不同来源对应的时间 - 频率区间聚合在一起。该模型通过最小化嵌入的重建误差来优化。与之前的工作不同,本模型实现了端到端的培训,不依赖混合介质中源的数量,并在测试时间尝试了两种策略,K-means 和固定吸引子点,后者无需后处理即可实时实现。在华尔街日报数据集上评估了该系统并优于之前的最优方法 5.49%。
Nov, 2016
提出了一种新的深度学习框架来解决混合谱中时域 - 频域混淆的问题并有效恢复说话者语音,其中将混合信号的时频表示投影到高维嵌入空间,并为每个说话者创建一个参考点吸引器,并将说话者的嵌入向量强制聚集到其相应的吸引器点附近,该方法在 Wall Street Journal 数据集上表现出与其他最先进的深度学习方法相媲美甚至更好的性能。
Jul, 2017
本研究使用深度学习技术改进双耳扬声器分离系统,通过引入自我关注机制和密集连接,保留相互耳提示信息,得到比最近的分离方法更好的性能,且提高了声音定位准确度。
Sep, 2020
该研究探索了使用掩蔽函数和深度递归神经网络进行单声道源分离任务(包括单声道语音分离,单声道歌唱声分离和语音去噪)的联合优化。与现有模型相比,我们的方法在评估数据集中的任务中表现良好,并实现了较大的音频性能提升。
Feb, 2015
本文提出了一种基于残差网络和双向门控循环单元 (BGRU) 的端到端视听模型,该模型是第一个在大型公开数据集 (LRW) 上学习直接从图像像素和音频波形提取特征并进行语境内单词识别的视听融合模型,并取得了比端到端仅音频模型和基于 MFCC 的模型更好的分类效果。
Feb, 2018