Jul, 2024

语音处理的线性复杂度自监督学习

TL;DR本文研究了一种线性复杂度的自监督学习(SSL)上下文编码器,通过改进SummaryMixing模型,在MP3S基准测试的下游任务中达到更好或相等的性能,将wav2vec 2.0模型的预训练时间和峰值VRAM分别减少了18%和23%,使得155M wav2vec 2.0模型的预训练在一周内由4个Tesla A100 GPU完成。