基于 Transformer 的模型在学习模拟结构递归方面仍不完美

Jan, 2024

基于 Transformer 的模型在学习模拟结构递归方面仍不完美

Transformer-Based Models Are Not Yet Perfect At Learning to Emulate Structural Recursion

Dylan Zhang, Curt Tigges, Zory Zhang, Stella Biderman, Maxim Raginsky...

TL;DR研究了基于 Transformer 模型从示例中学习结构递归的能力，探讨了该模型在性能和语义理解等方面的局限性。

Abstract

This paper investigates the ability of transformer-based models to learn structural recursion from examples. Recursion is a universal concept in both natural and formal languages. →

transformer-based models structural recursion sequence modeling programming language large language models

发现论文，激发创造

Transformers 能否递归地学会解决问题？

本文研究了神经网络在程序编写和形式验证方面的行为，重点关注结构递归，并评估了变压器模型在近似这些函数中的能力及其局限性，并通过重构算法正确预测了近似函数的失败案例的 91％。

May, 2023

因果转换器在递归嵌套结构上表现低于随机，不如人类

研究发现，当处理嵌套构造中存在长距离嵌入依赖时，尽管 Transformer 语言模型在处理短距离嵌入依赖时表现接近完美，但表现却远低于机会水平，这揭示了 Transformers 在结构化的递归处理中的缺陷。

Oct, 2021

透过递归实现神经编程体系结构的泛化

通过在神经程序员 - 解释器框架中实现递归来解决学习程序时神经网络泛化能力和推理能力不足的问题，证明该方法在少量训练数据的情况下具有更好的泛化性和可解释性，体验表明为了让神经网络更好的学习程序语义，需要像递归这样的概念。

Apr, 2017

使用 Transformer 关注数学语言

使用变压器架构生成、评估和训练数学表达式，将其作为字符级序列转换任务进行分析，建立在关注机制上的编码器和解码器上。三个模型分别被训练在数学符号变量和表达式的理解和评估上，最终达到了测试准确率高达 76.1%、78.8% 和 84.9%。

Dec, 2018

循环变压器在学习学习算法方面更好

提出了一种使用循环变压器架构和相关训练方法的方法，旨在将迭代特性纳入变压器架构中，实现与标准变压器相媲美的性能，在解决各种数据拟合问题时使用少于 10％的参数数量。

Nov, 2023

基于结构化任务训练的 Transformer 模型的系统泛化和涌现结构

该文探讨了怎样使用 Transformer 网络在算法任务中表现良好，展示了多层 transformer 网络在任务分解中的可靠性解决方案，以及所有相关任务中的共享计算的利用。

Oct, 2022

变压器语言模型在算法学习上的限制

我们分析了 Transformer 语言模型在学习离散算法方面的能力，通过引入两个需要组合多个离散子任务的新任务，我们在从头开始训练 LLaMA 模型以及 GPT-4 和 Gemini 上引导训练时，度量了学习的基本组合。我们观察到，最先进的 Transformer 语言模型的组合能力非常有限，而且在样本上的规模效果比为新的算法组合重新学习所有子任务要差。我们还提出了一个复杂性理论的定理，证明了在记忆前馈模型上的梯度下降可能在数据效率上指数级低效。

Feb, 2024

变形金刚何时能够通过抽象符号进行推理？

调查了 Transformer 大型语言模型在涉及抽象符号的关系推理任务中的能力。对于 (i) 回归任务，我们证明了 Transformer 在训练时具有泛化性，但需要大量的训练数据；对于具有符号标签的 (ii) 下一个令牌预测任务，我们展示了一种 “反比例尺律”：随着嵌入维度的增加，Transformer 无法泛化。针对 (i) 和 (ii) 这两种情况，我们提出了微妙的 Transformer 修改，通过每个头部添加两个可训练参数来减少所需的数据量。

Oct, 2023

何时对于深度学习表示学习需要树形结构？

本文比较了基于语法树递归生成表征的递归神经模型与基于序列生成表征的循环神经模型（包括简单循环和 LSTM 模型）在情感分类、问答匹配、话语解析和语义关系提取等 4 个任务上的效果，并提出一种将长句子分解为类从句单元再分别处理的方法以提高循环模型的性能。研究结果表明递归模型在头词之间相隔较远、序列较长的任务上可优于循环模型，同时也揭示了两类模型的局限性以及未来改进方向。

Feb, 2015

推递层：在变形金刚语言模型中编码递归结构

递归是人类语言的一项突出特征，由于缺乏明确的递归状态跟踪机制，对自我关注来说是一项根本性的挑战。本研究引入了推入式层，这是一种新的自我关注层，通过跟踪已观察前缀的增量解析中每个令牌的估计深度，模拟了递归状态。使用推入式层的 Transformer 语言模型在句法泛化方面表现更好，并具有 3-5 倍的样本高效性，同时保持类似的困惑度。

Oct, 2023