Feb, 2024

理解采样近似损失的训练加速

TL;DR通过选择具有大梯度 / 损失的样本,可以显著减少训练步骤,本文提出了一种基于贪婪法选择具有大近似损失的样本来降低选择开销,并在训练 BERT 模型上展示了显著的训练时间节约和收敛速度提升。