Dec, 2022

教授小型语言模型推理

TL;DR本文探讨通过知识蒸馏将大型语言模型的推理能力迁移至小于 1000 亿参数的模型,实现任务的表现提升,对算术、常识和符号推理数据集效果显著,例如在 PaLM-540B 生成的思考链上进行微调后,T5 XXL 在 GSM8K 的准确率从 8.11%提高至 21.99%。