基于 Transformer 的模型在学习模拟结构递归方面仍不完美
本文研究了神经网络在程序编写和形式验证方面的行为,重点关注结构递归,并评估了变压器模型在近似这些函数中的能力及其局限性,并通过重构算法正确预测了近似函数的失败案例的 91%。
May, 2023
研究发现,当处理嵌套构造中存在长距离嵌入依赖时,尽管 Transformer 语言模型在处理短距离嵌入依赖时表现接近完美,但表现却远低于机会水平,这揭示了 Transformers 在结构化的递归处理中的缺陷。
Oct, 2021
通过在神经程序员 - 解释器框架中实现递归来解决学习程序时神经网络泛化能力和推理能力不足的问题,证明该方法在少量训练数据的情况下具有更好的泛化性和可解释性,体验表明为了让神经网络更好的学习程序语义,需要像递归这样的概念。
Apr, 2017
使用变压器架构生成、评估和训练数学表达式,将其作为字符级序列转换任务进行分析,建立在关注机制上的编码器和解码器上。三个模型分别被训练在数学符号变量和表达式的理解和评估上,最终达到了测试准确率高达 76.1%、78.8% 和 84.9%。
Dec, 2018
提出了一种使用循环变压器架构和相关训练方法的方法,旨在将迭代特性纳入变压器架构中,实现与标准变压器相媲美的性能,在解决各种数据拟合问题时使用少于 10%的参数数量。
Nov, 2023
该文探讨了怎样使用 Transformer 网络在算法任务中表现良好,展示了多层 transformer 网络在任务分解中的可靠性解决方案,以及所有相关任务中的共享计算的利用。
Oct, 2022
我们分析了 Transformer 语言模型在学习离散算法方面的能力,通过引入两个需要组合多个离散子任务的新任务,我们在从头开始训练 LLaMA 模型以及 GPT-4 和 Gemini 上引导训练时,度量了学习的基本组合。我们观察到,最先进的 Transformer 语言模型的组合能力非常有限,而且在样本上的规模效果比为新的算法组合重新学习所有子任务要差。我们还提出了一个复杂性理论的定理,证明了在记忆前馈模型上的梯度下降可能在数据效率上指数级低效。
Feb, 2024
调查了 Transformer 大型语言模型在涉及抽象符号的关系推理任务中的能力。对于 (i) 回归任务,我们证明了 Transformer 在训练时具有泛化性,但需要大量的训练数据;对于具有符号标签的 (ii) 下一个令牌预测任务,我们展示了一种 “反比例尺律”:随着嵌入维度的增加,Transformer 无法泛化。针对 (i) 和 (ii) 这两种情况,我们提出了微妙的 Transformer 修改,通过每个头部添加两个可训练参数来减少所需的数据量。
Oct, 2023
本文比较了基于语法树递归生成表征的递归神经模型与基于序列生成表征的循环神经模型(包括简单循环和 LSTM 模型)在情感分类、问答匹配、话语解析和语义关系提取等 4 个任务上的效果,并提出一种将长句子分解为类从句单元再分别处理的方法以提高循环模型的性能。研究结果表明递归模型在头词之间相隔较远、序列较长的任务上可优于循环模型,同时也揭示了两类模型的局限性以及未来改进方向。
Feb, 2015
递归是人类语言的一项突出特征,由于缺乏明确的递归状态跟踪机制,对自我关注来说是一项根本性的挑战。本研究引入了推入式层,这是一种新的自我关注层,通过跟踪已观察前缀的增量解析中每个令牌的估计深度,模拟了递归状态。使用推入式层的 Transformer 语言模型在句法泛化方面表现更好,并具有 3-5 倍的样本高效性,同时保持类似的困惑度。
Oct, 2023