Dual-Path Transformer Network: 直接上下文感知建模的端到端单声道语音分离

Jul, 2020

Dual-Path Transformer Network: 直接上下文感知建模的端到端单声道语音分离

Dual-Path Transformer Network: Direct Context-Aware Modeling for End-to-End Monaural Speech Separation

Jingjing Chen, Qirong Mao, Dong Liu

TL;DR本研究提出一种双路径变换网络（DPTNet）进行端到端语音分离，引入了直接上下文感知建模。改进的变换器使元素之间可以直接交互，并且双路径结构使得模型效率更高，实验结果表明，我们的方法优于当前最先进的模型（公共 WSj0-2mix 数据集上的 20.6 dB SDR）。

Abstract

The dominant speech separation models are based on complex recurrent or convolution neural network that model speech sequences indirectly conditioning on context, such as passing information through many intermediate states in recurrent neural network, leading to suboptimal separation performance. In this paper, we propose a →

dual-path transformer network end-to-end speech separation direct context-awareness improved transformer state-of-the-arts

发现论文，激发创造

双通道滤波网络：面向语音分离的说话人感知建模

本文中，我们提出一种名为双路滤波器网络的新型模型，它由说话者模块和分离模块组成，旨在改善语音分离的性能，避免排列不变性训练的问题，并在 DPRNN-TasNet 基础上构建，不仅优于 DPRNN-TasNet，而且能够识别说话者信息。

Jun, 2021

双通道 RNN：适用于时域单声道语音分离的高效长序列建模

本文提出了一种名为 DPRNN 的新型深度循环神经网络机制，它通过将输入序列分成较小的块并迭代应用区域内和区域间操作来模拟极长序列。实验结果表明，在使用 DPRNN 和在时域中应用样本级建模的 TasNet 中，相对于之前的最佳系统，使用比原来小 20 倍的模型在 WSJ0-2mix 上实现了新的最先进性能。

Oct, 2019

点云分析的双变换器

本文提出了一种新颖的点云表示学习架构，称为 Dual Transformer Network (DTNet)，该架构主要包括一个 Dual Point Cloud Transformer (DPCT) 模块，该模块通过同时聚合点和通道的多头注意力机制，从位置和通道的语义角度捕获更丰富的上下文依赖性，有效地实现了三维点云分类和分割任务中的终端到终端分析。

Apr, 2021

DPATD: 双阶段音频变压器降噪

通过利用较小的音频块作为输入，我们提出了一种名为 DPATD 的双相音频变压器模型，该模型组织了一个深层结构的变压器层以学习用于降噪的清洁音频序列。广泛的实验证明我们的模型优于现有技术方法。

Oct, 2023

FurcaNeXt: 动态门控扩张时间卷积网络的端到端单声道语音分离

本文提出了几种深度卷积网络，包括多尺度动态加权门控扩展金字塔网络（FurcaPy）、带有 Intra-Parallel 卷积组件的门控 TCN（FurcaPa）、共享权重的多尺度门控 TCN（FurcaSh）以及带有门控差异卷积分量的扩张 TCN（FurcaSu）并进行了直接最优化 utterance 级别的信号失真比（SDR）的训练。在公共 WSJ0-2mix 数据语料库上进行的实验表明，这些网络提高了 18.4dB 的 SDR，显示出对演讲者分离任务性能的改进。

Feb, 2019

关于嘈杂多信道语音分离中的时域 Conformer 模型

语音分离对于多说话者技术研究人员来说仍然是一个重要的课题。卷积增强变换器（conformers）在许多语音处理任务中表现良好，但在语音分离方面研究较少。最近的最新分离模型一直是时域音频分离网络（TasNets）。一些成功的模型利用了双路径（DP）网络，这些网络顺序处理本地和全局信息。时域 conformers（TD-Conformers）是 DP 方法的一种类似方式，它们也顺序处理本地和全局上下文，但时间复杂性函数不同。结果表明，在现实中较短的信号长度下，控制特征维度时 conformers 更有效。提出了子采样层以进一步提高计算效率。最佳的 TD-Conformer 在 WHAMR 和 WSJ0-2Mix 基准测试上分别实现了 14.6 dB 和 21.2 dB 的 SISDR 改进。

Oct, 2023

时空神经滤波器：方向感知的端对端多通道目标语音分离

本文提出了一种时空神经滤波器，通过方向信息的辅助作用，从具有混响的多人语音混合物中直接估计目标语音波形，以提高目标和干扰源之间的时域、频域和空域可辨识度，并设计了一种全卷积自动编码器框架用于快速和端到端的语音分离处理。

Jan, 2020

终端到终端语音分离模型漏洞的实证分析

通过对 ConvTasnet 和 DPT-Net 模型进行滤波等探究，揭示了基于谐波关系的语音分离端到端模型机制，发现这些网络在遭遇人类无法感知的变形时表现不佳，并且 pinpoints 编码器作为网络不稳定性的来源。

Jun, 2022

感知微妙冲突的双路径语义匹配建模

提出一种基于双路径建模框架的 Transformer 模型，分别对语义关系的相似性和差异性进行建模，以增强模型感知句对中微妙差异的能力，实验结果表明，该模型与基线相比表现出更加一致的提升。

Feb, 2023

会议在线发言人分化的语音分离指导

我们介绍了一种新的基于语音分离引导的在线发言人分化方案，适用于持续变动的说话人数量的长时间会议录音。

Jan, 2024