语言模型的物理学:第二部分2.2,如何从小学数学问题的错误中学习
本文研究预训练语言模型在数值推理方面的能力,以及该能力强弱与预训练数据中各项词语的出现频率之间的关系。研究结果表明,模型对出现频率较高的词语表现更为准确。此外,作者认为在解释理论评价结果时,应考虑到预训练数据带来的影响。
Feb, 2022
通过使用多种类型不同的语言,我们通过手动将 GSM8K 数据集中的 250 个小学数学问题翻译成十种不同的语言,评估了大型语言模型在多语种环境下的推理能力,并提出了 MGSM 基准。我们发现,随着模型规模的增加,使用思维链提示解决 MGSM 问题的能力越来越强,即使在孟加拉语和斯瓦希里语等少数语言中,这些模型也具有非常强的多语种推理能力。最后,我们展示了语言模型的多语种推理能力扩展到其他任务,例如常识推理和上下文语义判断。
Oct, 2022
提出一种信息论干预的新型框架,以克服向语言模型注入非语言技能时发生的语言技能灾难性遗忘,从而使语言模型在保留语言能力的同时也具备数学推理的能力。
Nov, 2022
我们探索了大型语言模型在辅导教师补救学生错误中的潜力,并通过评估表明,尽管模型不断改进了原始辅导响应,但仍无法达到经验丰富的数学教师的水平。这项工作揭示了当前大型语言模型在提供规模化高质量学习体验方面的潜力和局限性。
Oct, 2023
通过精心设计的训练数据、详细分析数学推理中的错误类型并构建了一个自检修正数据集,本研究旨在增强大型语言模型的自检能力,从而提高自我修正的准确性。在与其他检查-修正数据相关的情境中,使用“Step CoT Check”提示进行微调的模型表现更好,提供更精确的反馈,从而达到更高的正确率。
Feb, 2024
大型语言模型在数学推理的许多基准测试上取得了令人瞩目的成功,但人们越来越担心其中的一部分性能实际上是由于数据集污染,而不是真正的推理能力。调查显示,许多模型可能已经部分记忆了基准测试的例子,导致在新的基准测试上准确度下降。
May, 2024
我们通过定义四个评估任务,并设计多样的提示来全面评估十一种代表性的LLM模型,从考官的角度出发,为错误识别和修正提供了新的数据集和注释的错误类型和步骤。研究结果表明GPT-4在所有模型中表现最佳,而开源模型LLaMA-2-7B的能力与闭源模型GPT-3.5和Gemini Pro相当。尤其是计算错误被证明是最具挑战性的错误类型。此外,使用错误类型提示LLM可以将平均修正准确率提高47.9%。这些结果揭示了开发LLM的数学推理能力的潜在方向。
Jun, 2024
通过引入一个包含正确和错误推理步骤的新数据集MWP-MISTAKE,本研究重点探讨了大型语言模型在检测和纠正推理错误方面的能力,并通过全面的基准测试揭示了目前最先进模型(如GPT-4o,GPT-4,GPT-3.5Turbo等)的优点和缺点。此外,我们还发现涉及数据污染和记忆的问题,影响了大型语言模型在实际应用中的可靠性,因此强调了对推理过程进行严格评估的重要性,并提出了提高大型语言模型在数学问题解决中泛化性和鲁棒性的未来方向。
Jun, 2024
本研究解决了语言模型在数学推理问题上的能力与过程缺口,通过一系列受控实验探讨了语言模型是否真正具备推理技能,及其思维过程的隐秘机制。研究发现,语言模型在处理数学问题时展现出的推理过程和错误来源,为更好的理解大规模语言模型提供了重要的见解。
Jul, 2024
该研究解决了现有的大规模语言模型在数学推理任务中缺乏全面基准测试的问题。通过比较七种最先进的学习算法在五个广泛使用的数学数据集上的表现,研究揭示了大型基础模型在数学推理中的独立性能及其效率与效果之间的权衡。研究结果为教育等实际应用提供了重要的指导。
Aug, 2024