May, 2023

Recycle-and-Distill: 基于注意力映射重用和掩码蒸馏的 Transformer 语音 SSL 模型通用压缩策略

TL;DR本研究提出基于 Transformer 的语音自监督学习模型压缩方法,包括重用注意力矩阵并采用新型蒸馏策略。我们的通用压缩策略可在 SUPERB 基准测试中实现 7.72% 的音素错误率和 9.96% 的单词错误率。