基于模板的数据生成培训和评估语言模型
利用大型语言模型(LLMs)进行特定领域的数学推导是一项新兴的研究方向,可以帮助发现模型的局限性,潜在地支持数学发现。本文利用符号引擎在大规模上生成方程的推导,并研究LLMs在从前提中推导目标方程时的能力。实证结果表明,fine-tuned FLAN-T5-large (MathT5)在绝对性能方面超过了GPT模型在所有静态和分布外的测试集上。然而,深入分析发现,fine-tuned模型对于涉及未知符号的扰动(以及较小程度的方程结构更改)更为敏感。此外,我们分析了1.7K个方程和200多个推导,突出了常见的推理错误,如包含不正确、无关或多余的方程,以及跳过推导步骤的倾向。最后,我们探讨了评估数学推导的现有指标的适用性,发现尽管它们能捕捉到对扰动的敏感性等一般属性,但无法凸显细粒度的推理错误和模型之间的重要差异。总体来说,本研究表明在合成数据上训练模型可以提高其数学能力,超越更大的架构。
Jul, 2023
最近,ChatGPT在NLP领域引起了广泛关注。ChatGPT是一种基于Transformer的大规模生成式语言模型,在自然语言处理的各种任务中表现出多样性。然而,大型语言模型在解决需要推理能力的数学问题时往往表现较差。先前的研究表明,借助思维链提示可以增强推理能力。现在,我们旨在探讨是否通过对生成Prolog代码进行微调,进而将这些代码传递给编译器可以进一步提高准确性。结果显示,Prolog生成模型在性能上超过了基准模型,而组合生成模型并未显著提高。基于GSM8K的Prolog语料库和相应微调的基于LLaMA7B的Prolog生成模型已经发布给研究社区。
Sep, 2023
大型语言模型的数据污染引发了关于其语义理解能力的担忧,本文提出了MSTemp方法,通过创建元语义模板对LLMs进行评估,不直接对现有基准数据集进行评估,而是使用现有数据集作为种子生成新的超出分布的评估集,实验结果表明MSTemp生成的样本可以显著降低LLMs的性能。
Oct, 2023
MathGenie是一种从小规模的问题解决数据集(称为种子数据)生成多样且可靠的数学问题的新方法,通过增加种子数据的真实解决方案,并训练一个回译模型将增加的解决方案翻译回新问题,从而产生与代码集成的问题解决方案,进而提供理性基础验证策略,该方法通过对新收集的数据训练从7B到70B范围的预训练模型,形成了MathGenieLM系列模型,这些模型在五个代表性数学推理数据集上始终优于以前的开放源语言模型,达到了最新的性能水平,尤其是MathGenieLM-InternLM2在GSM8K上达到了87.7%的准确率,在MATH上达到了55.7%的准确率,获得了开放源语言模型的最佳综合得分。
Feb, 2024
基于GPT-4的数据合成能力,我们提出了一种通过训练小型语言模型来合成数学问题,以高效生成足够高质量的预训练数据的有效方法,并在数学推理数据集上展现了最先进的性能。
May, 2024
通过对高质量合成数据的微调,本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现,并通过开源的3B模型在三个不同的测试数据集上实验结果表明,这种模型不仅在域内数据集上能够达到0.44的零样本一次通过率@1,而且还在域外数据集上展现出一定的泛化能力,对于扩展数字范围和算术难题问题的组合组件分别设计了两个域外数据集,在这两个更难的任务上,经过微调的模型展示出令人鼓舞的表现,零样本一次通过率@1分别为0.33和0.35。
Jun, 2024
本研究解决了大型语言模型(LLMs)在数学推理任务中自然语言与代码之间的有效整合问题。论文提出了一种新颖的提示方法MetaMath,它能动态选择最合适的推理形式,从而提升模型性能。研究结果显示,LLMs在自然语言推理中表现优于代码,并且自然语言与代码的相互影响可能在某些情境下导致负面效果。
Sep, 2024
本研究解决了手动策划指令数据集的高成本和时间问题,提出了“烹饪书”框架,以程序化方式生成训练数据,避免法律和隐私问题。研究发现,基于“烹饪书”生成的数据可以提高模型在特定任务上的性能,且在多任务评估中表现优异,是提升大型语言模型能力的有效方法。
Oct, 2024
本研究旨在解决大型语言模型在数学推理中表现不足的问题,通过开发一种自动化方法生成高质量的监督数学数据集。该方法结合了大语言模型的直观非正式化优势和数学求解器的精确符号推理能力,生成的数据在实证实验中表现出色,使得LLaMA-2和Mistral在重新对齐后优于现有的同类模型。
Dec, 2024