May, 2024

用任务感知课程计划对大型语言模型进行指令遵循能力提炼

TL;DR任务感知课程规划的指导下,使用动态难度调整的多轮精馏框架 TAPIR 提供平衡的任务分布,通过升级难度水平逐步提升学生 LLM 的能力,并经过两个广泛认可的基准测试验证,结果表明使用我们的方法及较少的训练数据训练的学生 LLMs 在复杂任务中(如逻辑推理和代码生成)优于较大的经过指导调整的模型和强大的精馏基准线。