Sep, 2018

Conv-TasNet: 超越理想的时间 - 频率幅度掩蔽技术,实现语音分离

TL;DR该论文介绍了一个名为 Conv-TasNet 的深度学习框架,可用于端到端的语音分离,通过一系列线性编码器和加权函数(掩码),Conv-TasNet 可以显著地提高两个和三个扬声器混合声音的分离能力,并优于多种时间 - 频率掩码方法和经过主观和客观质量评估的最佳时间 - 频率幅度掩码,对于离线和实时语音分离应用都有较小的模型尺寸和更短的最小延迟。