FERMAT：数字推理中的非精确度替代方案

ACLMay, 2023

FERMAT：数字推理中的非精确度替代方案

FERMAT: An Alternative to Accuracy for Numerical Reasoning

Jasivan Alex Sivakumar, Nafise Sadat Moosavi

TL;DR文章介绍了 FERMAT（英语数值推理的多维视角评估集），它通过对数值理解、数学操作和训练依赖等关键数值推理方面进行评估，提供了关于已有模型在不同数值推理方面的优势和劣势的全面评估，并能够系统化自动生成任意大规模的训练或评估集。

Abstract

While pre-trained language models achieve impressive performance on various NLP benchmarks, they still struggle with tasks that require numerical reasoning. Recent advances in improving numerical reasoning are mo

pre-trained language models numerical reasoning fermat evaluation set training dependency

发现论文，激发创造

探索语言模型的数值推理能力：对表格数据进行综合分析

这篇论文提出了一个层次化的数值推理技能分类法，涵盖四个级别的十多种推理类型。通过对先进模型进行全面评估，并开发了一组多样化的数值探针，论文发现在所有数值推理类型中，FlanT5（无 / 少数据）和 GPT-3.5（少数据）相对其他模型表现出强大的整体数值推理技能。标签颠倒探针表明模型经常利用数据集的特征来预测正确的标签。

Nov, 2023

将数字推理技能注入语言模型

通过在大量数据集上进行多任务训练，我们展示了数值推理可以注入到预训练的语言模型中，使性能得到显著提高。在一个简单通用的 encoder-decoder 架构上训练，我们的模型 GenBERT 在 DROP 数据集上的性能可以达到与同等规模的最先进模型相媲美，同时在数学单词问题数据集上保持高性能，这种方法为延展技能到大型预训练语言模型提供了一般的解决方案。

Apr, 2020

提高预训练语言模型的数值推理能力

提出了一种新的推理感知预训练方法，使用对比学习将另一种数字表示形式纳入预训练模型，通过基于推理的数字预测任务训练来提高其数值推理能力，实验结果表明该方法在需要数值推理的任务上能够提高准确性，并且人类评估显示该方法能够提高数据集上的事实正确性。

May, 2022

朝向与问题格式无关的数值推理：一套必备任务

介绍了一个多方面的基准测试 NUMBERGAME 来评估八种不同形式的数值推理任务的模型绩效，并需具有探测数据中的问题格式，查找中间常见格式，加入常识知识和解决不同格式数据不平衡的能力。同时，构建了多个基线模型，包括一个基于作弊纸的知识狩猎模型。但所有基线模型都表现较差，说明了该基准测试的难度。

May, 2020

通过预测推理顺序来衡量和提高 BERT 的数学能力

本文研究 BERT 语言模型是否具备数学能力，从而能够解决单词数学问题，提出了一种预训练任务 Neighbor Reasoning Order Prediction (ROPS)，针对数学过程提供了半正式的解释步骤，通过新的模型和预训练任务，实现了比数据驱动基线和结构更加优化的模型更好的结果，并且还展示了如何减少这种模型中的位置偏差。

Jun, 2021

针对 FinQA 的数值推理的鲁棒优化长文本到数学模型

本文提出了一种使用不同专业能力的模型进行融合的方法，以解决财务问题的数字推理任务，并在 FinQA 挑战赛中获得了第一名，执行准确率为 71.93％，程序准确率为 67.03％。

Jun, 2022

财务报表的数值推理

财务报告通过分析公司的运营情况提供重要见解，但通常长度过长，约 30 至 40 页，对于动态市场的快速决策提出了挑战。为解决这个问题，我们利用经过微调的大型语言模型（LLM）从用户提出的问题中提炼关键指标和运营指标。我们设计了一种定位关键数据的方法，并利用 FinQA 数据集对 Llama-2 7B 和 T5 模型进行微调，以进行定制化问答。在最终的数值回答上取得了与基准相当的结果，在数值推理和计算上具有竞争力的准确性。

Dec, 2023

ConvFinQA：探索在金融问答中的数字推理链

本研究旨在探讨大规模预训练语言模型在金融领域中实现数值推理的挑战，提出了一个新的大规模数据集 ConvFinQA，对其进行了综合性实验和分析，为研究实际世界中复杂推理任务提供新的资源。

Oct, 2022

一种细粒度召回器和多器生成器集成的金融问答数值推理系统

本研究提出了一种针对金融文本和表格数据的数字推理问题回答系统，该系统包括检索器模块、生成器模块和集成模块。在私人测试集上的表现可达 69.79 个执行精度。

Jun, 2022

MAF: 提升大型语言模型的推理能力的多方面反馈

语言模型在自然语言任务中表现出令人印象深刻的性能，然而，在自然语言推理方面，语言模型仍面临幻觉、生成不正确的中间推理步骤和数学错误等挑战。最近的研究集中于通过自我改进和反馈来增强语言模型。然而，现有的方法依赖于单一的通用反馈来源，无法解决语言模型生成推理链中出现的多种错误类型。在这项工作中，我们提出了一种多方面反馈的迭代改进框架，该框架整合了多个反馈模块，包括冻结的语言模型和外部工具，每个模块都专注于特定的错误类别。我们的实验结果证明了我们的方法在解决语言模型生成的推理链中的几个错误，并因此提高了语言模型在多个推理任务中的整体性能。在数学推理中，我们看到了相对改进高达 20%，在逻辑推断中高达 18%。

Oct, 2023