DPATD: 双阶段音频变压器降噪
本研究提出一种双路径变换网络(DPTNet)进行端到端语音分离,引入了直接上下文感知建模。改进的变换器使元素之间可以直接交互,并且双路径结构使得模型效率更高,实验结果表明,我们的方法优于当前最先进的模型(公共 WSj0-2mix 数据集上的 20.6 dB SDR)。
Jul, 2020
本文提出了一种高效的 Dual-branch Deformable Transformer (DT) 去噪网络,在局部和全局分支中均应用了可变形关注机制,能够更好地捕捉图像中的局部和全局交互,并能显著减少计算成本,取得了在真实世界和合成去噪任务方面的最先进性能。
Apr, 2023
将音频降噪问题转化为图像生成任务,通过复杂图像生成 SwinTransformer 网络捕获更多的信息,使用结构相似性和详细损失函数生成高质量图像并最小化去噪音频和干净音频之间的差异,实验证明该模型优于现有方法。
Oct, 2023
本文提出了一种名为 DPRNN 的新型深度循环神经网络机制,它通过将输入序列分成较小的块并迭代应用区域内和区域间操作来模拟极长序列。实验结果表明,在使用 DPRNN 和在时域中应用样本级建模的 TasNet 中,相对于之前的最佳系统,使用比原来小 20 倍的模型在 WSJ0-2mix 上实现了新的最先进性能。
Oct, 2019
本文针对多说话人环境下的鲁棒语音处理,提出了使用时域音频分离网络 (TasNet) 直接对信号进行建模,通过编码器输出估计源掩码、并经过解码器进行合成的方法,该方法适用于实时应用,并能在低功耗情况下完成语音分离任务,是当前最先进的语音分离算法之一。
Nov, 2017
语音分离对于多说话者技术研究人员来说仍然是一个重要的课题。卷积增强变换器(conformers)在许多语音处理任务中表现良好,但在语音分离方面研究较少。最近的最新分离模型一直是时域音频分离网络(TasNets)。一些成功的模型利用了双路径(DP)网络,这些网络顺序处理本地和全局信息。时域 conformers(TD-Conformers)是 DP 方法的一种类似方式,它们也顺序处理本地和全局上下文,但时间复杂性函数不同。结果表明,在现实中较短的信号长度下,控制特征维度时 conformers 更有效。提出了子采样层以进一步提高计算效率。最佳的 TD-Conformer 在 WHAMR 和 WSJ0-2Mix 基准测试上分别实现了 14.6 dB 和 21.2 dB 的 SISDR 改进。
Oct, 2023
本文介绍了一种基于深度神经网络的相位和谐感知模型(PHASEN),用于单通道语音增强,其中使用两种不同的流进行幅度和相位预测,并设计了频率转换模块来捕捉沿频率轴的长程相关性,在 AVSpeech + AudioSet 和 Voice Bank + DEMAND 数据集上分别获得 1.76dB 和大幅优于以前方法的表现。
Nov, 2019
本文中,我们提出一种名为双路滤波器网络的新型模型,它由说话者模块和分离模块组成,旨在改善语音分离的性能,避免排列不变性训练的问题,并在 DPRNN-TasNet 基础上构建,不仅优于 DPRNN-TasNet,而且能够识别说话者信息。
Jun, 2021
本文提出了一种模拟大脑自上而下关注机制的、模型复杂度较低但表现优异的基于编码器 - 解码器的深度神经网络架构 TDANet,并在三个基准数据集上验证其高效性和有效性。
Sep, 2022
本文提出了一个双重注意力变压器机器翻译模型,通过预训练的卷积神经网络联接空间视觉特征,通过两个分离的注意力部件,在加强的多头注意力层中自由处理源语言单词和图像部分,并在目标语言生成单词时,发现该模型可以有效地利用非常稀少的多模数据集和大规模文本数据集,实现了在英德多模机器翻译任务中的最佳效果
Jul, 2018