Mar, 2022

LightHuBERT: 一种轻量级可配置的语音表征学习方法,采用一次性隐藏单元BERT

TL;DR我们提出了 once-for-all Transformer 压缩框架 LightHuBERT,通过剪枝结构化参数自动找到所需的结构,成功地将嵌套数千个共享权重子网的基于Transformer的超网进行了设计,并使用两阶段蒸馏策略从HuBERT利用上下文化的潜在表征。在自动语音识别(ASR)和 SUPERB 基准测试上实验表明,LightHuBERT 实现了超过 $10^9$ 种结构,深度, 宽度, 注意力维度,前馈网络比例和网络深度, 在ASR 和五个 SUPERB 任务上表现优于原始的 HuBERT,与该教师模型在大多数任务中表现相当,在三个 SUPERB 任务中具有 $3.5 imes$ 的压缩比,即自动说话人验证、关键词检测和意图分类,在稍微减少准确率的情况下,可以实现 29% 的参数减少,并提供代码和预训练模型。