基于关键点驱动的大型语言模型的数学推理精炼

Jul, 2024

基于关键点驱动的大型语言模型的数学推理精炼

Key-Point-Driven Mathematical Reasoning Distillation of Large Language Model

Xunyu Zhu, Jian Li, Yong Liu, Can Ma, Weiping Wang

TL;DR通过将大型语言模型分解为更小的语言模型，通过程序或关键点推导，改善了语义理解错误，提高了数学推理任务的性能。

Abstract

large language models (LLMs) have demonstrated exceptional proficiency in mathematical reasoning tasks due to their extensive parameter counts and training on vast datasets. Despite these capabilities, deploying LLMs is hindered by their computational demands. Distilling LLM mathematic

发现论文，激发创造

通过语义分解将大型语言模型的多步推理能力浓缩为更小的模型

本研究提出对大型语言模型进行知识蒸馏的方法，利用链式思考等分步推理技术来促进推理能力并提高模型性能，通过分解、训练和求解等步骤实现问题的分解和求解，比链式思考方法性能更佳，可广泛应用于数学问题等多场景中。

Dec, 2022

从算术任务中学习多步推理

本研究探究如何将较小的语言模型与多步推理能力相结合，通过在合成数据集MsAT上进行持续的预训练，我们的实验证明了该方法对增强语言模型的数学推理能力的有效性。

Jun, 2023

MCC-KD: 多CoT一致知识蒸馏

通过Multi-CoT一致知识蒸馏(MCC-KD)方法，我们提出了一种提升大型语言模型的推理能力、实现多样性和一致性的方法，并验证其在数学推理和常识推理的基准测试中的优秀性能和鲁棒泛化能力。

Oct, 2023

混合蒸馏助于小型语言模型更好地进行推理

通过Mixed Distillation框架，将大语言模型的Program-of-Thought和Chain-of-Thought的能力转移到较小模型中，提高较小模型的性能，优于传统蒸馏方法，并在多路径推理中实现了令人印象深刻的准确度表现。

Dec, 2023

通过混合思维提炼，提高小型语言模型的数学推理能力

通过将大型语言模型的数学推理能力压缩到亿级参数的小型语言模型中，不影响性能，以实现先进的大型语言模型民主化。我们提出了EoTD（Equation-of-Thought Distillation）技术，将推理过程封装到基于方程的表示中，构建了EoTD数据集用于微调小型语言模型。此外，我们提出了MTD（Mix Thoughts Distillation）框架，以增强小型语言模型的推理性能。实验结果表明，EoTD显著提升了小型语言模型的推理能力，而MTD使这些模型达到了最先进的推理性能。

Jan, 2024

大型语言模型在数学推理方面的进展与挑战

数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的LLM技术范围、影响LLMs解决数学问题的因素和问题，并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。

Jan, 2024

基于关键点的数据综合及其对数学推理的增强

利用Key-Point-Driven Data Synthesis合成问题-答案对，生成大规模综合的数学推理数据集KPMath，并通过fine-tuning将Mistral-7B模型在KPMath-Plus上提高了数学推理能力。

Mar, 2024

基于关键点的渐进式思维链提取法用于LLMs

KPOD框架通过利用遮罩学习来鼓励学生精确模仿关键点标记，并通过渐进式教学策略逐步扩展到整个论证过程，实现了来自大型语言模型的推理能力向较小学生模型的转移，取得了远超之前方法的广泛实验结果。

May, 2024

大规模语言模型在数学推理任务中的基准测试

该研究解决了现有的大规模语言模型在数学推理任务中缺乏全面基准测试的问题。通过比较七种最先进的学习算法在五个广泛使用的数学数据集上的表现，研究揭示了大型基础模型在数学推理中的独立性能及其效率与效果之间的权衡。研究结果为教育等实际应用提供了重要的指导。

Aug, 2024

轻量级大型语言模型在数学文字问题中的逻辑对比推理

本研究旨在提升轻量级大型语言模型在数学推理任务中的表现，填补了系统化测量数学逻辑相似性的空白。通过引入一种新颖的自动筛选机制来构建参考问题集，该方法结合了语义和逻辑相似性，在SVAMP数据集上实现了15.8%的性能提升，并在GSM8K数据集上取得了21.5%的改进，为未来的推理研究提供了重要的见解。

Aug, 2024