Jun, 2024

基于错误学习的 LLM 教学:自动化模型改进

TL;DR该研究介绍了创新的 “LLMs 作为教师” 的框架,利用先进的大型语言模型(LLMs)自动增强较小目标模型的训练。采用 “学习错误” 理论启发,该框架使用教师 LLM 细致分析目标模型中的具体错误,促进有针对性和高效的训练周期。通过 “学习错误” 和 “对比学习从错误中学习”,该框架实施了两种策略,分别关注错误响应以个性化训练数据,并分析正确和错误响应以更深入理解错误。使用多个开源模型进行的实证研究表明,在数理推理、编码能力和事实知识等多个基准测试中都取得了显著的改进。值得注意的是,改进后的 Llama-3-8b-Instruction 的表现超过了 ChatGPT,证明了我们方法的有效性。通过充分利用两种策略的优势,我们在领域内外基准测试上获得了更加平衡的性能提升。我们的代码可在此 https URL 找到。