Dual-Path Transformer Network: 直接上下文感知建模的端到端单声道语音分离
本文中,我们提出一种名为双路滤波器网络的新型模型,它由说话者模块和分离模块组成,旨在改善语音分离的性能,避免排列不变性训练的问题,并在 DPRNN-TasNet 基础上构建,不仅优于 DPRNN-TasNet,而且能够识别说话者信息。
Jun, 2021
本文提出了一种名为 DPRNN 的新型深度循环神经网络机制,它通过将输入序列分成较小的块并迭代应用区域内和区域间操作来模拟极长序列。实验结果表明,在使用 DPRNN 和在时域中应用样本级建模的 TasNet 中,相对于之前的最佳系统,使用比原来小 20 倍的模型在 WSJ0-2mix 上实现了新的最先进性能。
Oct, 2019
本文提出了一种新颖的点云表示学习架构,称为 Dual Transformer Network (DTNet),该架构主要包括一个 Dual Point Cloud Transformer (DPCT) 模块,该模块通过同时聚合点和通道的多头注意力机制,从位置和通道的语义角度捕获更丰富的上下文依赖性,有效地实现了三维点云分类和分割任务中的终端到终端分析。
Apr, 2021
通过利用较小的音频块作为输入,我们提出了一种名为 DPATD 的双相音频变压器模型,该模型组织了一个深层结构的变压器层以学习用于降噪的清洁音频序列。广泛的实验证明我们的模型优于现有技术方法。
Oct, 2023
本文提出了几种深度卷积网络,包括多尺度动态加权门控扩展金字塔网络(FurcaPy)、带有 Intra-Parallel 卷积组件的门控 TCN(FurcaPa)、共享权重的多尺度门控 TCN(FurcaSh)以及带有门控差异卷积分量的扩张 TCN(FurcaSu)并进行了直接最优化 utterance 级别的信号失真比(SDR)的训练。在公共 WSJ0-2mix 数据语料库上进行的实验表明,这些网络提高了 18.4dB 的 SDR,显示出对演讲者分离任务性能的改进。
Feb, 2019
语音分离对于多说话者技术研究人员来说仍然是一个重要的课题。卷积增强变换器(conformers)在许多语音处理任务中表现良好,但在语音分离方面研究较少。最近的最新分离模型一直是时域音频分离网络(TasNets)。一些成功的模型利用了双路径(DP)网络,这些网络顺序处理本地和全局信息。时域 conformers(TD-Conformers)是 DP 方法的一种类似方式,它们也顺序处理本地和全局上下文,但时间复杂性函数不同。结果表明,在现实中较短的信号长度下,控制特征维度时 conformers 更有效。提出了子采样层以进一步提高计算效率。最佳的 TD-Conformer 在 WHAMR 和 WSJ0-2Mix 基准测试上分别实现了 14.6 dB 和 21.2 dB 的 SISDR 改进。
Oct, 2023
本文提出了一种时空神经滤波器,通过方向信息的辅助作用,从具有混响的多人语音混合物中直接估计目标语音波形,以提高目标和干扰源之间的时域、频域和空域可辨识度,并设计了一种全卷积自动编码器框架用于快速和端到端的语音分离处理。
Jan, 2020
通过对 ConvTasnet 和 DPT-Net 模型进行滤波等探究,揭示了基于谐波关系的语音分离端到端模型机制,发现这些网络在遭遇人类无法感知的变形时表现不佳,并且 pinpoints 编码器作为网络不稳定性的来源。
Jun, 2022
提出一种基于双路径建模框架的 Transformer 模型,分别对语义关系的相似性和差异性进行建模,以增强模型感知句对中微妙差异的能力,实验结果表明,该模型与基线相比表现出更加一致的提升。
Feb, 2023