HuBERT-EE:高效语音识别的早期退出 HuBERT 模型
通过使用早期退出结构,我们研究了用于大词汇语音识别的动态模型,这些模型可以根据可用资源和识别性能自动调整其计算成本。与以前的工作不同的是,我们不仅使用预训练的骨干网络,还使用早期退出结构从头开始训练模型。通过在公共数据集上的实验证明,与使用较少编码器层或使用预训练模型相比,从头开始的早期退出结构不仅保持了性能水平,还提高了任务准确性。此外,我们还研究了一种基于后验概率的退出选择策略,作为基于帧熵的替代方案。
Sep, 2023
近年来,自我监督学习方法在语音处理任务中取得了显著进展。本文提出了一种名为 Fast-HuBERT 的高效优化方法,通过分析 HuBERT 预训练的计算成本并引入一系列效率优化,实现了与原始实现相比,无性能降低、在 Librispeech 960h 基准上训练时间为 1.1 天、速度提升 5.2 倍的效果。此外,我们在 Fast-HuBERT 中探索了两种技术,并展示了与之前工作相一致的改进效果。
Sep, 2023
我们提出了 once-for-all Transformer 压缩框架 LightHuBERT,通过剪枝结构化参数自动找到所需的结构,成功地将嵌套数千个共享权重子网的基于 Transformer 的超网进行了设计,并使用两阶段蒸馏策略从 HuBERT 利用上下文化的潜在表征。在自动语音识别(ASR)和 SUPERB 基准测试上实验表明,LightHuBERT 实现了超过 $10^9$ 种结构,深度,宽度,注意力维度,前馈网络比例和网络深度,在 ASR 和五个 SUPERB 任务上表现优于原始的 HuBERT,与该教师模型在大多数任务中表现相当,在三个 SUPERB 任务中具有 $3.5 imes$ 的压缩比,即自动说话人验证、关键词检测和意图分类,在稍微减少准确率的情况下,可以实现 29% 的参数减少,并提供代码和预训练模型。
Mar, 2022
本文提出一种名为 SmartBERT 的动态早期退出的 BERT 推理技术,结合跨层对比学习和层跳过机制,能够自适应跳过某些层和自适应选择是否退出,通过在训练阶段提出硬权重机制,可实现一致的跳过门的使用,通过 8 个分类数据集的实验结果表明,SmartBERT 达到 2-3 倍的计算减少,并与 BERT 相比仅有较小的精度损失,并且在效率和精度方面优于先前的方法。
Mar, 2023
自主训练的语音模型在各种任务中已显示出其有用性,但其庞大的体积限制了在计算能力和内存较低的设备中的使用。本论文探讨了一种早期退出的方法,用于通过尽早退出网络的前向过程来减少延迟。我们介绍了数据自适应自主训练早期退出(DAISY)方法,该方法根据自主训练损失来决定何时退出,消除了多轮训练和微调的需求。DAISY 在 MiniSUPERB 基准测试上与 HuBERT 的性能相匹配,但推理时间更快。我们对 DAISY 的适应性进行了分析,结果显示该模型在干净数据上早期退出(使用较少层),而在噪声数据上晚期退出(使用更多层),根据每个样本的噪声水平动态调整推理的计算成本。
Jun, 2024
本文提出了一种基于哈希技术的早期结束方法,即 HashEE 方法,以替代 learn-to-exit 模块来预测每个实例的困难度,并将每个令牌分配到一个固定的退出层。实验证明,与先前的早期退出方法相比,该方法在分类、回归和生成任务中能够实现更高的性能,且需要更少的 FLOPs 和推理时间,并且不需要内部分类器或额外参数。
Mar, 2022
DeeBERT 是一种简单而有效的方法,可以加速 BERT 的推理并降低推理时间。实验结果显示 DeeBERT 能够在保持模型质量的情况下,最多节省约 40%的推理时间,这为高效地应用基于 transformer-based 的深度模型提供了新思路。
Apr, 2020
本研究提出了一个利用聚类和预测损失的自监督学习方法 HuBERT,来解决语音表示学习中存在的多个输入单元、无法在预训练阶段建立输入单元词典以及不明显的分割问题,该方法对于掩盖区域的预测损失、高质量的聚类步骤具有一定的鲁棒性,在多个基准测试集上的表现不低于当前最先进的 wav2vec 2.0 性能。
Jun, 2021
通过提出一种名为 MuE 的新颖的早期退出策略,可以在编解码器中动态地跳过图像和文本多模态的不同层,从而提高推理效率,该方法可将预期推理时间缩短 50%和 40%,同时保持高达 99%和 96%的性能。
Nov, 2022
提出了一种用于学习鲁棒语音表示的自我监督预训练方法 MS-HuBERT,通过解决预训练和推理不匹配问题,以及利用模型能力更有效地使用多聚类遮蔽预测损失,相比于传统的 HuBERT 在不同微调数据集上平均提高了 5% 的性能,并表明在预训练期间获得的嵌入式表示编码了提高内容相关任务(如 ASR)性能的重要信息。
Jun, 2024