迭代头部：关于思维链式机制的研究

Jun, 2024

迭代头部：关于思维链式机制的研究

Iteration Head: A Mechanistic Study of Chain-of-Thought

Vivien Cabannes, Charles Arnal, Wassim Bouaziz, Alice Yang, Francois Charton...

TL;DR本文通过在可控且可解释的环境中演示，填补了对 CoT 推理内在机制和出现条件的理解有限之处，观察到一种专门用于迭代推理的特殊注意力机制 ——“迭代头”，并追踪到注意力层次上这些迭代头的出现和精确运作，并测量其所产生的 CoT 技能在任务间的可传递性。

Abstract

Chain-of-Thought (CoT) reasoning is known to improve Large Language Models both empirically and in terms of theoretical approximation power. However, our understanding of the inner workings and conditions of apparition of CoT capabilities remains limited. This paper helps fill this gap by demonstrating how →

chain-of-thought reasoning cot reasoning transformers iteration heads transferability

发现论文，激发创造

逐步思考的方式：链状思维推理的机械性理解

通过对大型语言模型的内部机制进行机械性探索，我们发现大型语言模型在连续思考生成上部署多个并行路径，产生了顺序答案，并观察到模型中的功能分层差异，这是对连续思考推理进行机械性研究的首次尝试。

Feb, 2024

基于视图的 Hopfield 解释的思维链推理

通过分析在不同设置下的 CoT 方法，从 Hopfieldian 视角提出了 Read-and-Control 方法，通过广泛实验验证了该框架对于理解 CoT、识别推理错误和控制正确推理路径的能力。

Jun, 2024

揭示思维链背后的谜团：理论视角

研究表明 Chain-of-Thought 提示可以显著改善大型语言模型的性能，特别是在涉及数学或推理的复杂任务中。本文首先对这些问题的潜在机制进行了理论方面的探讨，然后通过构建的方式证明了带有 CoT 的自回归机器人可以解决基本算术方程问题和决策制定问题，并且具有动态编程方面的潜在应用。

May, 2023

链条思维推理中的忠实性测量

在大型语言模型中，通过分析模型预测的变化，研究发现 Chain-of-Thought 推理在某些任务中对答案预测的条件具有较大影响，但随着模型规模的增大，模型对大多数任务的推理越来越不可信，因此建议在选择模型规模和任务时谨慎使用 Chain-of-Thought 推理。

Jul, 2023

神经语言模型的表示能力与思维链式推理

现代语言模型的性能已通过思维链推理得到改进，思维链推理扩展了语言模型的计算能力，但也引入了类别错误，为此我们在概率模型中形式化思维链推理，并通过对序列生成模型的表示能力进行研究，证明它们可以表示与概率图灵机相同的字符串分布。

Jun, 2024

思维链串联变压器解决本质上串行的问题

通过表达能力的角度，本文从理论上解释了串行思维链（CoT）对仅解码器的变压器的增强作用，通过对中间步骤（即 CoT）的生成模型进行指导，可以显著提高大型语言模型在算术和符号推理任务上的准确性。

Feb, 2024

大型语言模型中的思维过程图推理：超越思维链的有效方法

使用 T5 预训练模型实现了图形思维推理模型，提高了基于文本推理任务 GSM8K 的性能和面向多模态的推理任务 ScienceQA 的准确率，通过较少的骨干模型参数与基于 700M 参数的 Multimodal-CoT 模型获得相当的结果，探索了非线性思考的建模方法。

May, 2023

思维的连锁：计划中 CoT 的分析

根据 Blocksworld 的案例研究，通过链式思维问题可以提高大型语言模型的性能，但需要高度问题特定的提示，并且存在性能改善和生成正确推理示例所需人力之间的明显权衡。

May, 2024

走向理解思路链提示：对重要性的经验研究

本论文研究了 Chain-of-Thought 提示对大型语言模型的多步推理能力的影响，发现即使使用无效的推理步骤，其提示也能达到 80-90% 的性能，并探究了其他理性方面的影响。

Dec, 2022

Tab-CoT: 零样本表格思维链

本文提出了一种新颖的表格格式 CoT 提示方法，命名为 Tab-CoT 方法，可以在高度结构化的方式下明确地建模复杂的推理过程，通过在一系列推理任务中的实验证明了该方法的强大的零射击和少射击能力。

May, 2023