剽窃和解决：探索并利用表面形式对大型语言模型的数学推理影响

ACLApr, 2024

剽窃和解决：探索并利用表面形式对大型语言模型的数学推理影响

Paraphrase and Solve: Exploring and Exploiting the Impact of Surface Form on Mathematical Reasoning in Large Language Models

PDF

Yue Zhou, Yada Zhu, Diego Antognini, Yoon Kim, Yang Zhang

TL;DR该研究探讨了数学问题的表面形式与其是否能被大型语言模型解决之间的关系，并发现表面形式的微小改变可以显著影响答案分布和解决率，揭示了语言模型在推理复杂问题时缺乏鲁棒性和对表面形式的敏感性。为了提高数学推理性能，研究提出了自洽性超重述（SCoP）方法，该方法通过多样化问题的特定表面形式来多样化推理路径。通过对三个大型语言模型上的四个数学推理基准进行评估，研究表明 SCoP 相对于普通的自洽性方法可以提高数学推理性能，特别是对于最初被认为无法解决的问题。最后，研究提供了关于问题难度和表面形式的额外实验和讨论，包括模型间的难度一致性和重述的可迁移性，以及用于语言模型评估的变异性。

Abstract

This paper studies the relationship between the surface form of a mathematical problem and its solvability by large language models. We find that subtle alterations in the →

surface form solubility large language models mathematical reasoning performance self-consistency-over-paraphrases

发现论文，激发创造

意图保持改写的意义和形式分解

本文提出一种方法，使用变分自动编码器将问题表示为一个潜在编码空间，从而解决了语义保留和句法创新之间的平衡问题，并使用分类器和 Vector-Quantized 变分自动编码器选择不同的表面形式进行英语问题的改写。

May, 2021

自我打磨：通过问题优化增强大型语言模型的推理能力

该研究提出了一种名为 Self-Polish 的新方法，旨在通过引导模型逐步精炼给定的问题，以提高其问题解决能力，与其他提示方法正交，有效地提高了针对不同数据集的 Few-Shot 学习和 CoT 模型的表现。

May, 2023

用因果框架量化语言模型数学推理的鲁棒性

通过行为测试，研究语言模型在数学问题求解中的鲁棒性和灵敏度，并通过因果图描述直接干预输入空间对模型行为的影响。在双变量数学问题测试中，LLM、GPT-3-Instruct（175B）相对于其他 GPT 变体，在鲁棒性和灵敏度方面实现了显著提高。

Oct, 2022

GeomVerse：几何推理的大型模型的系统评估

大语言模型在多步数学推理方面表现出色，但包含文字和图像的数学推理问题需要评估视觉语言模型的推理能力。通过几何问题的镜头，我们通过多个角度评估视觉语言模型的推理能力。我们创建了一个合成的几何问题数据集，具有可控的难度级别，从而进行系统评估。我们的基准测试结果表明，这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色，特别是通过我们基准测试的多个深度级别构建，因为解决更深的问题需要更长的推理链而不是额外的记忆知识。我们释放这个数据集供进一步研究使用。

Dec, 2023

通过生成问题语句的语言变体来求解数学应用题

该论文提出了一种用于解决数学问题的框架，该框架基于生成问题文本的语言变体，利用 DeBERTa 编码器构建解决方案表达式，通过对每个变体问题进行求解并选出获得大多数选票的预测表达式来改善数学推理和模型的鲁棒性。

Jun, 2023

大型语言模型中的符号数学问题推理

该论文研究了大型语言模型在数学问题推理方面的能力，特别关注符号推理在数值问题中的准确性，并通过自提示的方法提高了符号准确性，为模型提供了简洁可验证的推理能力。

Aug, 2023

表面形式竞争：为什么最高概率答案并不总是正确的

本文介绍了一种基于特定情境下的先验概率进行计算的替代评分函数 (Domain Conditional Pointwise Mutual Information)，可以在多个零样本任务中获得一致的提升表现，尤其是在面对表面形式竞争的情况下。

Apr, 2021

自然语言推理中错误多少是由于释义的变异导致的？

大型语言模型在对意义保持改写的输入作出回应时表现不一致。我们提出了一种度量自然语言推理模型改写一致性的评估指标，该指标基于模型在同一问题的两个改写上的正确性概率，并将其与改写相关的正确性变化的比例数学上相连。通过收集 ParaNLU 数据集，我们测量了几种模型类别的改写一致性，并展示了一致性随预训练而显著增加，而微调则没有。所有测试模型在改写一致性方面都有改进的空间。

Apr, 2024

科学大型语言模型：P vs. NP 研究

利用大型语言模型（LLMs）加速研究理论计算机科学和数学中最重要的开放性问题之一 P 与 NP 问题的一项工作，提出了一种名为苏格拉底推理的广义框架，通过 LLMs 促进复杂问题解决的深度思考。实验证明 GPT-4 在 97 次对话中通过苛刻的推理得出结论 “P≠NP”，从而揭示了 LLMs 广泛解空间中的新见解，为科学中的 LLMs 提供了启示。

Sep, 2023

使用合成数据探索大型语言模型的数学外推

通过对高质量合成数据的微调，本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现，并通过开源的 3B 模型在三个不同的测试数据集上实验结果表明，这种模型不仅在域内数据集上能够达到 0.44 的零样本一次通过率 @1，而且还在域外数据集上展现出一定的泛化能力，对于扩展数字范围和算术难题问题的组合组件分别设计了两个域外数据集，在这两个更难的任务上，经过微调的模型展示出令人鼓舞的表现，零样本一次通过率 @1 分别为 0.33 和 0.35。

Jun, 2024