基于错误学习的 LLM 教学：自动化模型改进

Jun, 2024

基于错误学习的 LLM 教学：自动化模型改进

LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement

Jiahao Ying, Mingbao Lin, Yixin Cao, Wei Tang, Bo Wang...

TL;DR该研究介绍了创新的 “LLMs 作为教师” 的框架，利用先进的大型语言模型（LLMs）自动增强较小目标模型的训练。采用 “学习错误” 理论启发，该框架使用教师 LLM 细致分析目标模型中的具体错误，促进有针对性和高效的训练周期。通过 “学习错误” 和 “对比学习从错误中学习”，该框架实施了两种策略，分别关注错误响应以个性化训练数据，并分析正确和错误响应以更深入理解错误。使用多个开源模型进行的实证研究表明，在数理推理、编码能力和事实知识等多个基准测试中都取得了显著的改进。值得注意的是，改进后的 Llama-3-8b-Instruction 的表现超过了 ChatGPT，证明了我们方法的有效性。通过充分利用两种策略的优势，我们在领域内外基准测试上获得了更加平衡的性能提升。我们的代码可在此 https URL 找到。

Abstract

This paper introduces the innovative "llms-as-instructors" framework, which leverages the advanced Large Language Models (LLMs) to autonomously enhance the training of smaller target models. Inspired by the theor

llms-as-instructors target models learning from errors training cycles contrastive learning

发现论文，激发创造

从错误中学习使 LLM 成为更好的推理者

利用 Learning from Mistakes（LeMa）方法，本研究利用大型语言模型（LLMs）对数学问题的解决能力进行改进，仿照人类学习过程中的错误驱动学习机制，通过与 GPT-4 生成的错误更正数据对进行微调，实验证明 LeMa 提升了性能，在 5 个 LLMs 和 2 个数学推理任务中持续改善性能，并在特定 LLMs（如 WizardMath 和 MetaMath）上表现出色，在具有挑战性的任务上超越了开源模型的性能。

Oct, 2023

通过互动演示教授语言模型自我提升

通过 TriPosT 训练算法，这篇论文介绍如何赋予更小的模型自我改进的能力，从而减小大型语言模型与成本效益更高、运行更快的模型之间的性能差距，并且通过与大型语言模型进行互动，收集反馈和改进，并将这一经验用于训练小模型，实验证明通过学习和纠正自己的错误对于小模型改进性能至关重要。

Oct, 2023

AutoDetect: 面向大型语言模型的自动弱点检测统一框架

通过 AutoDetect 框架对大型语言模型进行自动检测，能够发现模型的弱点并指导改进，提高 LLMs 的性能。

Jun, 2024

利用大型语言模型扩展 AutoTutor 的创作能力

使用大型语言模型（LLMs）构建智能辅导系统，结合传统教学方法并实现更好的教学成果。

Feb, 2024

评估大型语言模型的数学推理能力：重点关注错误识别和纠正

我们通过定义四个评估任务，并设计多样的提示来全面评估十一种代表性的 LLM 模型，从考官的角度出发，为错误识别和修正提供了新的数据集和注释的错误类型和步骤。研究结果表明 GPT-4 在所有模型中表现最佳，而开源模型 LLaMA-2-7B 的能力与闭源模型 GPT-3.5 和 Gemini Pro 相当。尤其是计算错误被证明是最具挑战性的错误类型。此外，使用错误类型提示 LLM 可以将平均修正准确率提高 47.9%。这些结果揭示了开发 LLM 的数学推理能力的潜在方向。

Jun, 2024

TeaMs-RL：通过强化学习教授 LLMs 更好地自我指导

通过使用增强学习直接生成基础指令数据集，TeaMs-RL 方法能够在单一微调步骤中提高大型语言模型的能力，减少人为参与需求、模型查询次数以及提高模型隐私保护能力。

Mar, 2024

评估 L 的 M 在检测 L 回应中的错误

ReaLMistake 是第一个错误检测基准工具，包含了 LLMs 的客观、实际和多样化错误。通过评估 12 种 LLMs 的错误检测器，发现 LLMs 的错误检测性能低于人类，并且解释不可靠，对提示的微小变化敏感而改进困难，同时改进 LLMs 的流行方法也不能提高错误检测性能。

Apr, 2024

FactLLaMA: 使用外部知识优化指令跟随语言模型以进行自动事实检验

结合外部证据检索并利用这些证据对指令遵循的语言模型进行指导调优，从而提高事实核实任务的性能。

Sep, 2023

利用 LLM 中的提示克服复杂教育文本数据中的不平衡

本文研究了如何利用具有断言的大型语言模型（LLMs）来缓解教育数据集中的不平衡问题，结果显示，与传统的机器学习（ML）模型相比，具有断言的 LLMs 在认知参与水平上明显优于传统模型，并且针对特定子集的敏感性研究表明，将断言加入到 LLM 中可提高其性能约 11.94%。

Apr, 2024

民主化推理能力：从大型语言模型的个性化学习

通过多轮互动学习范式和自我反思学习，我们提出了一种定制化学习方法，从而将推理能力传授给较小的语言模型，以促进推理能力的开放和普及。

Oct, 2023