Oct, 2024

导师知识蒸馏:提升小型语言模型的多步推理能力

TL;DR本研究解决了现有多步推理知识蒸馏方法中数据质量和软标签提供不足的问题。提出的导师知识蒸馏方法利用中间规模的任务特定微调模型,增强了链式思维注释并为学生模型提供软标签,从而有效提升小型语言模型的推理能力。实验结果显示,Mentor-KD 在多种模型和复杂推理任务中均表现出色。