May, 2019

通用音频分离

TL;DR该研究使用深度学习模型进行了基于掩蔽的语音信号增强和分离任务的研究,并尝试将其应用到任意类型混音的分离任务中,即通用声音分离。在此过程中,作者比较了不同的分析合成基础和网络结构,其中长短时记忆网络和时延卷积堆栈是采用时间域增强网络(ConvTasNet)的架构,对于后者,作者还提出了一些新的改进方法来进一步提高分离性能。最后,作者的研究表明,短时傅立叶变换(STFT)在通用声音分离方面表现优异,而在语音 / 非语音分离方面,长窗口的 STFT(25-50 毫秒)效果明显好于短窗口(2.5 毫秒),对于可学习的基础来说,短窗口(2.5 毫秒)一直是最佳选择。作者的最佳 方法在语音 / 非语音分离和通用声音分离方面都取得了显著的信号失真比的提高。