May, 2024
用任务感知课程计划对大型语言模型进行指令遵循能力提炼
Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning
Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang
TL;DR任务感知课程规划的指导下,使用动态难度调整的多轮精馏框架 TAPIR 提供平衡的任务分布,通过升级难度水平逐步提升学生 LLM 的能力,并经过两个广泛认可的基准测试验证,结果表明使用我们的方法及较少的训练数据训练的学生 LLMs 在复杂任务中(如逻辑推理和代码生成)优于较大的经过指导调整的模型和强大的精馏基准线。