评估 L 的 M 在检测 L 回应中的错误
我们通过定义四个评估任务,并设计多样的提示来全面评估十一种代表性的 LLM 模型,从考官的角度出发,为错误识别和修正提供了新的数据集和注释的错误类型和步骤。研究结果表明 GPT-4 在所有模型中表现最佳,而开源模型 LLaMA-2-7B 的能力与闭源模型 GPT-3.5 和 Gemini Pro 相当。尤其是计算错误被证明是最具挑战性的错误类型。此外,使用错误类型提示 LLM 可以将平均修正准确率提高 47.9%。这些结果揭示了开发 LLM 的数学推理能力的潜在方向。
Jun, 2024
通过提出新的数据集 SummEdits 来解决现有基准测试中存在的缺点,该数据集比以前的数据集更高效且高度可重复。然而,大多数 LL 模型在 SummEdits 上表现不佳,最好的 GPT-4 模型仍然比人类的表现差 8%,这凸显了 LL 模型在推理和检测事实不一致方面的能力差距。
May, 2023
通过引入一个包含正确和错误推理步骤的新数据集 MWP-MISTAKE,本研究重点探讨了大型语言模型在检测和纠正推理错误方面的能力,并通过全面的基准测试揭示了目前最先进模型(如 GPT-4o,GPT-4,GPT-3.5Turbo 等)的优点和缺点。此外,我们还发现涉及数据污染和记忆的问题,影响了大型语言模型在实际应用中的可靠性,因此强调了对推理过程进行严格评估的重要性,并提出了提高大型语言模型在数学问题解决中泛化性和鲁棒性的未来方向。
Jun, 2024
该研究介绍了创新的 “LLMs 作为教师” 的框架,利用先进的大型语言模型(LLMs)自动增强较小目标模型的训练。采用 “学习错误” 理论启发,该框架使用教师 LLM 细致分析目标模型中的具体错误,促进有针对性和高效的训练周期。通过 “学习错误” 和 “对比学习从错误中学习”,该框架实施了两种策略,分别关注错误响应以个性化训练数据,并分析正确和错误响应以更深入理解错误。使用多个开源模型进行的实证研究表明,在数理推理、编码能力和事实知识等多个基准测试中都取得了显著的改进。值得注意的是,改进后的 Llama-3-8b-Instruction 的表现超过了 ChatGPT,证明了我们方法的有效性。通过充分利用两种策略的优势,我们在领域内外基准测试上获得了更加平衡的性能提升。我们的代码可在此 https URL 找到。
Jun, 2024
利用 Learning from Mistakes(LeMa)方法,本研究利用大型语言模型(LLMs)对数学问题的解决能力进行改进,仿照人类学习过程中的错误驱动学习机制,通过与 GPT-4 生成的错误更正数据对进行微调,实验证明 LeMa 提升了性能,在 5 个 LLMs 和 2 个数学推理任务中持续改善性能,并在特定 LLMs(如 WizardMath 和 MetaMath)上表现出色,在具有挑战性的任务上超越了开源模型的性能。
Oct, 2023
使用大型语言模型(LLMs)探索错误检测在探究式学习中的应用,并解决学生实验协议等复杂、不完整、甚至矛盾和多样化的数据中的逻辑错误识别的困难。
Aug, 2023
人类反馈强化学习受到人类正确评估模型输出能力的限制。为了提高人类评估能力并克服这一限制,本研究训练了 “评论家” 模型,帮助人类更准确地评估模型生成的代码。这些评论家是通过强化学习从人类反馈训练的语言模型,用于指出真实世界助手任务中代码中的问题。在含有自然发生的语言模型错误的代码中,63% 的情况下优先选择模型生成的评论,而人工评估发现模型比人类承包商在代码审核中能找到更多的错误。我们进一步验证了我们微调的语言模型评论家能够成功地在被评为 “无瑕疵” 的 ChatGPT 训练数据中识别出数百个错误,尽管绝大多数任务是非代码任务,因此对评论家模型来说是非分布的。评论家也可能存在其自身的局限性,包括产生错误的问题,可能会误导人类错误地做出本来可以避免的错误,但是人机评论家与承包商团队能够发现与仅使用语言模型评论相似数量的错误,并且比仅使用语言模型时产生更少的错误。
Jun, 2024