利用全局注意力和本地循环网络进行有效的低成本时域音频分离
本文提出了一种名为 DPRNN 的新型深度循环神经网络机制,它通过将输入序列分成较小的块并迭代应用区域内和区域间操作来模拟极长序列。实验结果表明,在使用 DPRNN 和在时域中应用样本级建模的 TasNet 中,相对于之前的最佳系统,使用比原来小 20 倍的模型在 WSJ0-2mix 上实现了新的最先进性能。
Oct, 2019
本文提出了一种模拟大脑自上而下关注机制的、模型复杂度较低但表现优异的基于编码器 - 解码器的深度神经网络架构 TDANet,并在三个基准数据集上验证其高效性和有效性。
Sep, 2022
本研究使用深度学习技术改进双耳扬声器分离系统,通过引入自我关注机制和密集连接,保留相互耳提示信息,得到比最近的分离方法更好的性能,且提高了声音定位准确度。
Sep, 2020
本文针对多说话人环境下的鲁棒语音处理,提出了使用时域音频分离网络 (TasNet) 直接对信号进行建模,通过编码器输出估计源掩码、并经过解码器进行合成的方法,该方法适用于实时应用,并能在低功耗情况下完成语音分离任务,是当前最先进的语音分离算法之一。
Nov, 2017
本文提出一种基于双重 RNN 和多头注意力网络(MAT)的直观双流递归关注网络(DualRAN),该模型旨在解决情感对话(ERC)任务中建模上下文的难题,能够更有效地捕获全局和局部背景信息。实验结果表明 DualRAN 模型优于所有基线,并且每个组件的有效性得到了深入的证明。
Jul, 2023
提出了一种使用双向门控神经网络(BGRU)来简化和增强深度吸引子网络(DANet)模型的方法,使用高斯混合模型(GMM)作为聚类算法,以降低复杂度并提高学习速度和准确性。对 TIMIT 语料库中的混合语音数据集进行了实验评估,该模型在 SDR 和 PESQ 分数上分别达到 12.3 dB 和 2.94,表现优于原始 DANet 模型。
Aug, 2023
本文介绍了一种门控卷积神经网络和一种基于时间注意力的定位方法,用于音频分类,并在 DCASE 2017 挑战赛的大规模弱监督声音事件检测任务中获得了第一名。
Oct, 2017
本文提出了一种新颖的基于时频域的音视频语音分离方法:递归时频分离网络 (RTFS-Net),通过在短时傅里叶变换产生的复杂时频区间上运用算法来独立地对音频的时间和频率进行建模,并引入了独特的基于注意力的融合技术,以有效地整合音频和视觉信息,并利用声学特征的固有谱特性进行更清晰的分离。RTFS-Net 在仅使用 10% 的参数和 18% 的 MAC 时,超越了先前的最先进方法。这是首个在时频域中超越所有当代时域对应方法的音视频语音分离方法。
Sep, 2023
本文介绍了一种基于 Transformers、无 RNN 结构的深度神经网络,即 SepFormer,并运用多尺度方法使其实现短时和长时依赖性的学习,从而在语音分离任务中取得了最优结果,并具有较高的计算速度和较小的内存占用。
Oct, 2020
我们提出了一种名为 Sandglasset 的自注意力网络,它采用多粒度特征,成功地提高了语音分离性能,与先前最先进结果相比,模型更小,计算成本更低,且在两个基准语音分离数据集上都表现出最佳结果。
Mar, 2021