Jia Qi Yip, Shengkui Zhao, Dianwen Ng, Eng Siong Chng, Bin Ma
TL;DR通过在 NAC 的嵌入空间中进行音频编码器(Codec)的语音分离(SS)任务,我们提出了一种新的模型 Codecformer,在推断过程中实现了 52 倍的 MAC 降低,并且产生了与 Sepformer 云部署相当的分离性能,为在实际场景中实现高效的 SS 打开了新的方向。
Abstract
Recent improvements in neural audio codec (NAC) models have generated interest in adopting pre-trained codecs for a variety of speech processing applications to take advantage of the →