BriefGPT.xyz
大模型
Ask
alpha
关键词
masking distillation strategy
搜索结果 - 1
Recycle-and-Distill: 基于注意力映射重用和掩码蒸馏的 Transformer 语音 SSL 模型通用压缩策略
本研究提出基于 Transformer 的语音自监督学习模型压缩方法,包括重用注意力矩阵并采用新型蒸馏策略。我们的通用压缩策略可在 SUPERB 基准测试中实现 7.72% 的音素错误率和 9.96% 的单词错误率。
PDF
a year ago
Prev
Next