使用 Transformers 进行数学推理系统评估的符号框架

May, 2023

使用 Transformers 进行数学推理系统评估的符号框架

A Symbolic Framework for Systematic Evaluation of Mathematical Reasoning with Transformers

Jordan Meadows, Marco Valentino, Damien Teney, Andre Freitas

TL;DR使用数据生成方法和符号代数，对变换器编码器的数学推理和泛化进行了 200,000 个例子的超大规模实验，并回答了变换器是否可以学习应用符号规则并推广到超出分布范围的例子。结果表明，扰动严重影响性能，并且可以将 F1 分数降至低于 17％，这表明推理主要由与数学运算的深层理解无关的表层模式所支配。

Abstract

Whether transformers can learn to apply symbolic rules and generalise to out-of-distribution examples is an open research question. In thi

transformers symbolic rules out-of-distribution examples mathematical reasoning perturbations

发现论文，激发创造

使用 Transformer 关注数学语言

使用变压器架构生成、评估和训练数学表达式，将其作为字符级序列转换任务进行分析，建立在关注机制上的编码器和解码器上。三个模型分别被训练在数学符号变量和表达式的理解和评估上，最终达到了测试准确率高达 76.1%、78.8% 和 84.9%。

Dec, 2018

一个关于训练于符号多步推理任务的 Transformer 的机制分析

通过对合成推理任务进行综合机械分析，我们鉴定了一组可解释的机制，这个模型用来解决任务，并使用相关和因果证据验证了我们的发现。我们的结果表明，它实现了一组深度有限的并行循环机制，并将中间结果存储在选择的令牌位置，我们期望我们在合成环境中鉴定的这些模式可以为理解变压器的更广泛操作原理提供有价值的见解。

Feb, 2024

使用 Transformer 测量神经证明生成中的系统化概括能力

研究 Transformer 语言模型在自然语言中进行基于逻辑推理的任务，探究它们的系统泛化能力，发现其在逆向推理证明方面表现更优，并且发现没有经过证明生成训练的模型更适合处理长证明的问题。研究结果强调了 TLM 在逻辑推理中的系统泛化行为，并且对其核心推理策略的深入研究提出了启示。

Sep, 2020

变形金刚何时能够通过抽象符号进行推理？

调查了 Transformer 大型语言模型在涉及抽象符号的关系推理任务中的能力。对于 (i) 回归任务，我们证明了 Transformer 在训练时具有泛化性，但需要大量的训练数据；对于具有符号标签的 (ii) 下一个令牌预测任务，我们展示了一种 “反比例尺律”：随着嵌入维度的增加，Transformer 无法泛化。针对 (i) 和 (ii) 这两种情况，我们提出了微妙的 Transformer 修改，通过每个头部添加两个可训练参数来减少所需的数据量。

Oct, 2023

Transformer 是否知道符号规则，我们是否能知晓？

本文提出了两个标准评估 transformer 网络在 NLP 中的 symbolic capacities，并指出当前关于其 symbolic 特性的研究结果基于实验设计的固有缺陷，进而在 T5 Transformer 上进行了四项序列建模实验研究。

Feb, 2022

利用局部注意力和网格样问题表示发现基本计算系统的 Transformer 模型

本文提出一种基于通用 Transformer 的深度学习模型，通过发现高效的算数程序，利用外部的网格状记忆进行多位数的加法计算，并且发掘了人类类似的计算策略，如位值对齐。

Jul, 2022

使用大型语言模型生成数学推导

利用大型语言模型 (LLMs) 进行特定领域的数学推导是一项新兴的研究方向，可以帮助发现模型的局限性，潜在地支持数学发现。本文利用符号引擎在大规模上生成方程的推导，并研究 LLMs 在从前提中推导目标方程时的能力。实证结果表明，fine-tuned FLAN-T5-large (MathT5) 在绝对性能方面超过了 GPT 模型在所有静态和分布外的测试集上。然而，深入分析发现，fine-tuned 模型对于涉及未知符号的扰动 (以及较小程度的方程结构更改) 更为敏感。此外，我们分析了 1.7K 个方程和 200 多个推导，突出了常见的推理错误，如包含不正确、无关或多余的方程，以及跳过推导步骤的倾向。最后，我们探讨了评估数学推导的现有指标的适用性，发现尽管它们能捕捉到对扰动的敏感性等一般属性，但无法凸显细粒度的推理错误和模型之间的重要差异。总体来说，本研究表明在合成数据上训练模型可以提高其数学能力，超越更大的架构。

Jul, 2023

基于 Transformer 的端到端符号回归

本文提出了一种挑战基于遗传编程的符号回归任务的两步法的新方法，利用 Transformer 直接预测包括常数在内的完整的数学表达式，并通过给非凸优化器提供信息化的初始化对预测的常数进行细化，实验表明该方法的效果更好，在 SRBench 基准问题上的表现接近最先进的基因编程方法，并且推断速度要快数个数量级。

Apr, 2022

通过自然语言可满足性推动变形金刚规则推理的极限

本研究通过提出一种新的方法构建具有挑战性的自然语言可满足性问题数据集，以研究 transformer 模型的推理能力，发现这些模型在解决困难的 NLSat 问题方面表现出非常强的能力，但仍然存在限制，包括需要选取适当的训练数据才能适用于更大的问题和限制其推理能力的问题。

Dec, 2021

可扩展神经符号回归

本研究介绍了第一种使用大规模预训练的符号回归方法，通过生成一组不受限方程式并使用 Transformer 预测输入输出对应的符号方程，提高了方程式发现的效率和准确性。

Jun, 2021