Sep, 2023

CoLLD: 对比层间蒸馏用于压缩多语言预训练语音编码器

TL;DR大规模无监督预训练语音编码器优于传统方法在语音识别和翻译任务中。然而,由于开发这些大型模型的高成本,构建新的编码器用于新任务并将其部署到设备应用上是不可行的。因此,先前的研究提出了模型压缩方法来解决该问题,但这些方法主要关注较小的模型和较不现实的任务。因此,我们提出了一种新的知识蒸馏方法,即对比层间蒸馏(CoLLD),通过利用掩码预测和对比学习来训练学生模型以模仿大型教师模型的行为,从而压缩预训练语音编码器。CoLLD 在多语言语音到文本翻译和识别基准测试中优于先前的方法,缩小了小型和大型模型之间的差距。