借助合成图导航模型增进对 Transformer 中逐步推理的理解

Feb, 2024

借助合成图导航模型增进对 Transformer 中逐步推理的理解

Towards an Understanding of Stepwise Inference in Transformers: A Synthetic Graph Navigation Model

Mikail Khona, Maya Okawa, Jan Hula, Rahul Ramesh, Kento Nishi...

TL;DR通过研究一种合成任务中的自回归 Transformer 模型，我们揭示了逐步推理的机制，并发现了在该任务中观察到的几个现象：（i）逐步推理推理间隔；（ii）模型生成中多样性与准确性之间的权衡；（iii）模型输出的简洁偏见；以及（iv）上下文示例中的组合概括和原位偏见。这项工作引入了一个基于合成框架的研究逐步推理，并提供了可奠定对该现象更深入理解基础的机制性假设。

Abstract

stepwise inference protocols, such as scratchpads and chain-of-thought, help language models solve complex problems by decomposing them into a sequence of simpler subproblems. Despite the significant gain in performance achieved via these protocols, the underlying mechanisms of

stepwise inference autoregressive transformer models graph navigation problem diversity-accuracy tradeoff compositional generalization

发现论文，激发创造

使用 Transformer 进行事实链的自回归推理

本文提出了一种迭代推理算法来实现多跳解释再生，该算法根据自然语言问题和其答案检索相关的事实证据。该算法通过自回归地从语料库中选取事实，以学习排序损失的方式来缓解多源证据的选择问题。使用预训练的 Transformer 模型进行实验，结果显示该算法在精度、培训时间和推理效率方面均优于先前的最先进技术。

Dec, 2020

语言模型是否对未来的标记进行计划？

transformers 在推断期间是否有预先思考。我们提出了两种解释：预缓存和面包屑。通过训练语言模型来测试这些假设，我们在合成数据设置和自回归语言建模设置中找到了明确的证据。

Apr, 2024

通过多媒体基础实现非顺序图脚本归纳

该论文提出了一种新的具有挑战性的任务，即非顺序图脚本推理，旨在捕捉程序规划中的可选步骤和可互换步骤，通过多模态框架将视频转换成观察到的步骤路径，以训练生成明确图脚本和预测未来步骤的模型。该模型优于纯文本 / 视觉基线，人类评估显示超过 WikiHow 线性基线，能够更好地捕捉顺序和非顺序步骤关系。

May, 2023

图转换规则的自动推导

介绍一种结合生成和动态观点的图变换模型构建方法，通过对输入的动态属性进行压缩构建兼容模型，该方法采用一种启发式的方法将图变换模型推演问题转化为已知问题的集合覆盖问题。

Apr, 2024

段落推理的多步推理

本文介绍了一种类似神经模块网络的组合模型，旨在对文本进行复杂的逻辑推理，通过寻找文章中相关的句子，并使用神经模块将它们链接起来，模型在 ROPES 上取得了显著的性能改进。

Apr, 2020

利用下一步监督生成自然语言推理中的中间步骤

通过序列到序列模型结合外部知识和符号搜索，在仅有下一步监督的情况下，生成了中间步骤，并证明其正确性，而这些生成的步骤可以通过简单的数据扩增策略，提高多个公共 NLI 数据集的综合性能。

Aug, 2022

基于堆栈神经模块网络的可解释神经计算

本研究提出一种新颖的神经模块化方法来实现基于组合推理的问题回答，该方法不需要强监督，能自动诱导期望的子任务分解并通过共享模块链接不同的推理任务，实验表明该模型比当前先进模型更易于人类评估者解释以及预测其中间结果的成功或失败。

Jul, 2018

工作记忆图

本研究旨在研究如何使用基于 Transformer 的模型来提高序列决策智能体的性能，并提出了 Working Memory Graph（WMG）代理程序，评估其在三种环境中的作用，并发现基于观测空间的因数组合 WMG 的 Transformer-based 架构可以显著提高其在 RL 环境中的样本使用效率。

Nov, 2019

一个关于训练于符号多步推理任务的 Transformer 的机制分析

通过对合成推理任务进行综合机械分析，我们鉴定了一组可解释的机制，这个模型用来解决任务，并使用相关和因果证据验证了我们的发现。我们的结果表明，它实现了一组深度有限的并行循环机制，并将中间结果存储在选择的令牌位置，我们期望我们在合成环境中鉴定的这些模式可以为理解变压器的更广泛操作原理提供有价值的见解。

Feb, 2024

探索语言模型的多步推理能力的机械解释

在这篇论文中，我们通过探索一种机械化方法来回答语言模型在多步推理任务中是通过抄袭预训练语料库中记忆的答案还是通过多步推理机制来完成这些任务的疑问。我们引入了一种新的探测方法（称为机械化探测器），从模型的注意力模式中恢复推理树，用于分析两个语言模型：GPT-2 在一个合成任务（第 k 个最小元素）上以及 LLaMA 在两个简单的基于语言的推理任务（ProofWriter 和 AI2 推理挑战）上。我们展示了机械化探测器能够在大多数示例中从模型的注意力中检测到推理树的信息，这表明在许多情况下语言模型确实在其架构中经历了一个多步推理的过程。

Oct, 2023