Oct, 2023
关于嘈杂多信道语音分离中的时域Conformer模型
On Time Domain Conformer Models for Monaural Speech Separation in Noisy
Reverberant Acoustic Environments
TL;DR语音分离对于多说话者技术研究人员来说仍然是一个重要的课题。卷积增强变换器(conformers)在许多语音处理任务中表现良好,但在语音分离方面研究较少。最近的最新分离模型一直是时域音频分离网络(TasNets)。一些成功的模型利用了双路径(DP)网络,这些网络顺序处理本地和全局信息。时域conformers(TD-Conformers)是DP方法的一种类似方式,它们也顺序处理本地和全局上下文,但时间复杂性函数不同。结果表明,在现实中较短的信号长度下,控制特征维度时conformers更有效。提出了子采样层以进一步提高计算效率。最佳的TD-Conformer在WHAMR和WSJ0-2Mix基准测试上分别实现了14.6 dB和21.2 dB的SISDR改进。