Sep, 2018
Conv-TasNet: 超越理想的时间-频率幅度掩蔽技术,实现语音分离
TasNet: Surpassing Ideal Time-Frequency Masking for Speech Separation
TL;DR该论文介绍了一个名为Conv-TasNet的深度学习框架,可用于端到端的语音分离,通过一系列线性编码器和加权函数(掩码),Conv-TasNet可以显著地提高两个和三个扬声器混合声音的分离能力,并优于多种时间-频率掩码方法和经过主观和客观质量评估的最佳时间-频率幅度掩码,对于离线和实时语音分离应用都有较小的模型尺寸和更短的最小延迟。