Feb, 2024

TinyLLM: 从多个大型语言模型中学习一个小型学生

TL;DR通过知识蒸馏,从多个大型教师语言模型中学习小型学生语言模型 TinyLLM,以解决当前方法存在的知识多样性有限和缺乏丰富的上下文信息等问题,并通过引入上下文示例生成器和 teacher-forcing 链式推理策略来确保合理的推理基于适当情境,从而在两个推理任务的六个数据集上的广泛实验中展示了 TinyLLM 方法的优越性,结果表明尽管模型尺寸较小,但 TinyLLM 可显著优于大型教师语言模型。