Oct, 2023

关于嘈杂多信道语音分离中的时域 Conformer 模型

TL;DR语音分离对于多说话者技术研究人员来说仍然是一个重要的课题。卷积增强变换器(conformers)在许多语音处理任务中表现良好,但在语音分离方面研究较少。最近的最新分离模型一直是时域音频分离网络(TasNets)。一些成功的模型利用了双路径(DP)网络,这些网络顺序处理本地和全局信息。时域 conformers(TD-Conformers)是 DP 方法的一种类似方式,它们也顺序处理本地和全局上下文,但时间复杂性函数不同。结果表明,在现实中较短的信号长度下,控制特征维度时 conformers 更有效。提出了子采样层以进一步提高计算效率。最佳的 TD-Conformer 在 WHAMR 和 WSJ0-2Mix 基准测试上分别实现了 14.6 dB 和 21.2 dB 的 SISDR 改进。