通过图算法理解 Transformer 推理能力
调查了 Transformer 大型语言模型在涉及抽象符号的关系推理任务中的能力。对于 (i) 回归任务,我们证明了 Transformer 在训练时具有泛化性,但需要大量的训练数据;对于具有符号标签的 (ii) 下一个令牌预测任务,我们展示了一种 “反比例尺律”:随着嵌入维度的增加,Transformer 无法泛化。针对 (i) 和 (ii) 这两种情况,我们提出了微妙的 Transformer 修改,通过每个头部添加两个可训练参数来减少所需的数据量。
Oct, 2023
使用 Transformer 的语言理解和图神经网络(GNN)的鲁棒性,我们提出了一种新的方法,将 Transformer 与基于神经算法推理器(NARs)的图算法进行结合,以解决算法推理方面的问题。经过评估,在算法推理方面,我们的结果表明 TransNAR 模型在 CLRS-Text 上相较于仅使用 Transformer 模型,能够获得显著的提升。
Jun, 2024
通过对合成推理任务进行综合机械分析,我们鉴定了一组可解释的机制,这个模型用来解决任务,并使用相关和因果证据验证了我们的发现。我们的结果表明,它实现了一组深度有限的并行循环机制,并将中间结果存储在选择的令牌位置,我们期望我们在合成环境中鉴定的这些模式可以为理解变压器的更广泛操作原理提供有价值的见解。
Feb, 2024
通过使用描述逻辑知识库构建一个合成的自然语言问答数据集,本研究评估了基于 transformer 的模型在推理能力、合成语境和知识库相关的问题上的表现,并展示了模型在训练过程中对不同推理深度的泛化能力。
Nov, 2023
本研究通过提出一种新的方法构建具有挑战性的自然语言可满足性问题数据集,以研究 transformer 模型的推理能力,发现这些模型在解决困难的 NLSat 问题方面表现出非常强的能力,但仍然存在限制,包括需要选取适当的训练数据才能适用于更大的问题和限制其推理能力的问题。
Dec, 2021
研究表明,通过允许 transformer 在回答问题之前生成和依赖于中间令牌的序列,可以提高其推理能力,增加中间生成的数量将显著扩展 transformer 解码器的计算能力,进而使其能够识别所有正则语言,保持上下文敏感语言,并解决多项式时间可解问题。
Oct, 2023
大型语言模型的新兴泛化特性方面已经有了惊人的发现,但在诸多简单推理任务(如算术和奇偶性等)上仍存在问题。本研究针对算法任务的长度泛化范围,通过提出一个统一的框架,阐述了 Transformer 模型在特定任务上表现出的能力和方式。
Oct, 2023
本文研究了仅编码器变换器语言模型在逻辑规则推理方面的能力,并通过多个数据集的实验结果表明,这些语言模型在确定逻辑有效性上取得了合理的程度,但在迁移能力方面存在困难,可能是学习了特定数据集的特征而不是一般的能力,同时通过分层探测实验证明假设分类任务主要是通过较高层解决的。
Dec, 2023
本文探讨了如何利用执行步骤信息,通过多任务学习将图算法的算法推理知识迁移到其他类似任务上,解决缺乏执行步骤信息时的推理问题。研究包括了包括宽度优先搜索和 Bellman-Ford 等并行算法,以及 Prim 和 Dijkstra 等流贪心算法等不同类型图算法。
Oct, 2021
我们研究了使用转换器网络在图上模拟算法的能力,并证明了该架构可以模拟 Dijkstra 最短路径算法、广度优先搜索、深度优先搜索和 Kosaraju 强连通分量算法,并展示了在有限精度下模拟的限制问题,最后证明了在额外的注意力头部利用时具有恒定宽度的图灵完备性结果。
Feb, 2024