Jun, 2024

多阶段均衡蒸馏:解决序列级知识蒸馏中的长尾挑战

TL;DR大语言模型(LLMs)在各种自然语言处理任务中有了显著的进展,但部署仍然需要大量的计算资源。我们介绍了一种名为 Multi-Stage Balanced Distillation(BalDistill)的框架,通过在固定的计算资源预算内动态选择代表性的正样本和合成尾部样本,平衡训练数据,并在各种长尾数据集上取得了最先进的性能,提高了蒸馏模型的效率和效果。