Jun, 2024

用 Per-core Clipping 高效训练能记忆较少且性能更好的 ASR 模型

TL;DR渐变剪切在训练大规模自动语音识别(ASR)模型中起着至关重要的作用。本研究系统地调查了一种特定细粒度的渐变剪切方法,即每个核心剪切(PCC),对于训练各种 ASR 模型的影响。我们经验证明,PCC 可以有效地减轻 ASR 模型中的非预期记忆。令人惊讶的是,我们发现 PCC 对于 ASR 性能指标产生了积极影响,提高了收敛速度并降低了词错误率。为了避免调整 PCC 引入的额外超参数,我们进一步提出了一种新的变种,自适应每个核心剪切(APCC),用于简化优化。我们的研究结果突显了 PCC 作为一种稳健、保护隐私的 ASR 模型训练策略的多方面优势。