可靠推理过程指导下的数值推理增强

Feb, 2024

可靠推理过程指导下的数值推理增强

Enhancing Numerical Reasoning with the Guidance of Reliable Reasoning Processes

Dingzirui Wang, Longxu Dou, Xuanliang Zhang, Qingfu Zhu, Wanxiang Che

TL;DR通过分解答案公式以确保支持答案的可靠推理过程，Encore 方法在所有五个实验数据集上平均提高了 1.8%，证明了该方法的有效性。

Abstract

numerical reasoning is an essential ability for nlp systems to handle numeric information. Recent research indicates that fine-tuning a sm

numerical reasoning nlp systems fine-tuning reliable processes reasoning process generation

发现论文，激发创造

将数字推理技能注入语言模型

通过在大量数据集上进行多任务训练，我们展示了数值推理可以注入到预训练的语言模型中，使性能得到显著提高。在一个简单通用的 encoder-decoder 架构上训练，我们的模型 GenBERT 在 DROP 数据集上的性能可以达到与同等规模的最先进模型相媲美，同时在数学单词问题数据集上保持高性能，这种方法为延展技能到大型预训练语言模型提供了一般的解决方案。

Apr, 2020

提高预训练语言模型的数值推理能力

提出了一种新的推理感知预训练方法，使用对比学习将另一种数字表示形式纳入预训练模型，通过基于推理的数字预测任务训练来提高其数值推理能力，实验结果表明该方法在需要数值推理的任务上能够提高准确性，并且人类评估显示该方法能够提高数据集上的事实正确性。

May, 2022

探索语言模型的数值推理能力：对表格数据进行综合分析

这篇论文提出了一个层次化的数值推理技能分类法，涵盖四个级别的十多种推理类型。通过对先进模型进行全面评估，并开发了一组多样化的数值探针，论文发现在所有数值推理类型中，FlanT5（无 / 少数据）和 GPT-3.5（少数据）相对其他模型表现出强大的整体数值推理技能。标签颠倒探针表明模型经常利用数据集的特征来预测正确的标签。

Nov, 2023

朝向与问题格式无关的数值推理：一套必备任务

介绍了一个多方面的基准测试 NUMBERGAME 来评估八种不同形式的数值推理任务的模型绩效，并需具有探测数据中的问题格式，查找中间常见格式，加入常识知识和解决不同格式数据不平衡的能力。同时，构建了多个基线模型，包括一个基于作弊纸的知识狩猎模型。但所有基线模型都表现较差，说明了该基准测试的难度。

May, 2020

反思：通过解线性方程组反向引导语言模型进行数值推理

本文提出了一种利用锚定数字来诱发和利用预先训练的语言模型潜在的数字推理知识的新方法，通过在复杂的数字上应用简单的锚定数字隐含的推理表达式，以显式地得到相应的答案并训练语言模型的数字推理能力。实验结果表明该方法显著提高了现有语言模型的数字推理能力。

Oct, 2022

一种神经符号化方法用于自然语言理解

通过启用预训练语言模型的深度神经网络，在系统 1 和系统 2 的理论支持下，实现了基于神经和符号处理的类比推理和逻辑推理，并在数值推理的两种自然语言理解任务中显著优于现有的最先进方法。

Mar, 2022

一种细粒度召回器和多器生成器集成的金融问答数值推理系统

本研究提出了一种针对金融文本和表格数据的数字推理问题回答系统，该系统包括检索器模块、生成器模块和集成模块。在私人测试集上的表现可达 69.79 个执行精度。

Jun, 2022

通过轨迹收集和过程奖励合成学习基于规划的推理

通过直接优化收集到的经验轨迹，我们提出一个基于规划的推理学习框架，以解决大型语言模型在复杂推理任务中出现的问题，并通过具体的过程奖励排名来提高生成推理过程的可靠性和可信度。

Feb, 2024

通过自动流程监督来改善语言模型中的数学推理

我们提出了一种新颖的分而治之式蒙特卡洛树搜索（MCTS）算法 OmegaPRM，用于有效地收集高质量的过程监督数据，进一步提高了指导调优的 Gemini Pro 模型在数学推理性能上的成功率，相较于现有方法，我们的方法在财务和计算上都具有成本效益。

Jun, 2024

脑启发的两阶段方法：模拟人类思维过程增强数学推理

提出了一种名为 Brain 的新方法，通过模仿人类思维过程来增强数学推理能力，在生成规划时使用额叶模型，然后利用顶叶模型生成代码并执行以获得答案，在数学推理任务中取得了最先进的性能，并发现可以明确从自然语言、代码或正式语言中提取规划。

Feb, 2024