基于关键点的数据综合及其对数学推理的增强
本文介绍了一个题库KQA Pro,旨在解决现有题库对多复杂推理能力的不足,采用了一种可组合且可解释的编程语言KoPL来表示复杂问题的推理过程,提供了与每个问题对应的KoPL程序和SPARQL查询,可以用于知识库问答和语义解析任务,并将其视为测试多种推理能力的诊断性数据集。实验结果表明,SOTA KBQA方法在KQA Pro上无法取得与当前数据集同样的优异结果,这表明KQA Pro很具有挑战性,需要进一步的研究努力。
Jul, 2020
本文利用数据编程技术设计了一种有效方法,可以使用知识库获得的上下文信息来进行transformers在回答句子选择QA任务中的精细调整,模型优化效果在WikiQA和TrecQA基准测试中比SOTA transformer方法提高了2.0% p@1、1.3% MAP、1.1% MRR、4.4% p@1、0.9% MAP、2.4% MRR,同时添加了自己的Alexa QA数据集。该方法能够使得模型在已有transformer工作流程上增加使用知识库上下文后的改进结果,而无需附加任何的延迟或实施成本
Mar, 2022
通过Multi-CoT一致知识蒸馏(MCC-KD)方法,我们提出了一种提升大型语言模型的推理能力、实现多样性和一致性的方法,并验证其在数学推理和常识推理的基准测试中的优秀性能和鲁棒泛化能力。
Oct, 2023
MathGenie是一种从小规模的问题解决数据集(称为种子数据)生成多样且可靠的数学问题的新方法,通过增加种子数据的真实解决方案,并训练一个回译模型将增加的解决方案翻译回新问题,从而产生与代码集成的问题解决方案,进而提供理性基础验证策略,该方法通过对新收集的数据训练从7B到70B范围的预训练模型,形成了MathGenieLM系列模型,这些模型在五个代表性数学推理数据集上始终优于以前的开放源语言模型,达到了最新的性能水平,尤其是MathGenieLM-InternLM2在GSM8K上达到了87.7%的准确率,在MATH上达到了55.7%的准确率,获得了开放源语言模型的最佳综合得分。
Feb, 2024
基于GPT-4的数据合成能力,我们提出了一种通过训练小型语言模型来合成数学问题,以高效生成足够高质量的预训练数据的有效方法,并在数学推理数据集上展现了最先进的性能。
May, 2024
这篇论文介绍了一个专门设计用来评估大型语言模型在更广泛的数学任务上的MathChat基准测试,并观察到这些模型在单回合问题回答方面表现出色,但在需要持续推理和对话理解的复杂场景下性能显著下降。通过开发MathChat sync这样一个用于提升模型对话能力和指令跟随能力的合成对话型数学数据集,实验结果强调了使用类似MathChat sync这样多样化的对话指令微调数据集训练大型语言模型的必要性。作者认为这项工作为改进大型语言模型的多轮数学推理能力指明了一个有希望的方向,推动了更擅长交互式数学问题解决和实际应用的大型语言模型的发展。
May, 2024
通过对高质量合成数据的微调,本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现,并通过开源的3B模型在三个不同的测试数据集上实验结果表明,这种模型不仅在域内数据集上能够达到0.44的零样本一次通过率@1,而且还在域外数据集上展现出一定的泛化能力,对于扩展数字范围和算术难题问题的组合组件分别设计了两个域外数据集,在这两个更难的任务上,经过微调的模型展示出令人鼓舞的表现,零样本一次通过率@1分别为0.33和0.35。
Jun, 2024
大语言模型在数学推理方面展示了令人印象深刻的能力,但目前的评估仅限于特定的数学主题,不清楚大语言模型是否真正参与了推理。为了填补这些研究空白,我们提出了数学主题树(MaTT)基准,这是一个具有挑战性和结构化的基准,提供了1,958个关于各种数学学科的问题,并配以详细的层级链。通过使用MaTT基准评估不同的大语言模型,我们发现最先进的模型GPT-4在多项选择场景下仅达到54%的准确度。有趣的是,即使在使用思维链提示的情况下,我们也几乎没有观察到明显的改进。此外,当问题在没有可选项的情况下提供时,大语言模型的准确度显著下降了24.2个百分点。对于一系列主题的大语言模型的详细性能分析表明,即使是在相同的数学领域中的紧密相关子主题之间,也存在显着差异。为了找出大语言模型性能背后的原因,当有可选项时,我们对GPT-4生成的解释的完整性和准确性进行了手动评估。令人惊讶的是,在模型提供正确答案的情况下,只有53.3%的解释被认为是完整和准确的,即模型进行了真正的推理。
Jun, 2024