迭代头部:关于思维链式机制的研究
通过对大型语言模型的内部机制进行机械性探索,我们发现大型语言模型在连续思考生成上部署多个并行路径,产生了顺序答案,并观察到模型中的功能分层差异,这是对连续思考推理进行机械性研究的首次尝试。
Feb, 2024
通过分析在不同设置下的 CoT 方法,从 Hopfieldian 视角提出了 Read-and-Control 方法,通过广泛实验验证了该框架对于理解 CoT、识别推理错误和控制正确推理路径的能力。
Jun, 2024
研究表明 Chain-of-Thought 提示可以显著改善大型语言模型的性能,特别是在涉及数学或推理的复杂任务中。本文首先对这些问题的潜在机制进行了理论方面的探讨, 然后通过构建的方式证明了带有 CoT 的自回归机器人可以解决基本算术方程问题和决策制定问题,并且具有动态编程方面的潜在应用。
May, 2023
在大型语言模型中,通过分析模型预测的变化,研究发现 Chain-of-Thought 推理在某些任务中对答案预测的条件具有较大影响,但随着模型规模的增大,模型对大多数任务的推理越来越不可信,因此建议在选择模型规模和任务时谨慎使用 Chain-of-Thought 推理。
Jul, 2023
现代语言模型的性能已通过思维链推理得到改进,思维链推理扩展了语言模型的计算能力,但也引入了类别错误,为此我们在概率模型中形式化思维链推理,并通过对序列生成模型的表示能力进行研究,证明它们可以表示与概率图灵机相同的字符串分布。
Jun, 2024
通过表达能力的角度,本文从理论上解释了串行思维链(CoT)对仅解码器的变压器的增强作用,通过对中间步骤(即 CoT)的生成模型进行指导,可以显著提高大型语言模型在算术和符号推理任务上的准确性。
Feb, 2024
使用 T5 预训练模型实现了图形思维推理模型,提高了基于文本推理任务 GSM8K 的性能和面向多模态的推理任务 ScienceQA 的准确率,通过较少的骨干模型参数与基于 700M 参数的 Multimodal-CoT 模型获得相当的结果,探索了非线性思考的建模方法。
May, 2023
根据 Blocksworld 的案例研究,通过链式思维问题可以提高大型语言模型的性能,但需要高度问题特定的提示,并且存在性能改善和生成正确推理示例所需人力之间的明显权衡。
May, 2024
本论文研究了 Chain-of-Thought 提示对大型语言模型的多步推理能力的影响,发现即使使用无效的推理步骤,其提示也能达到 80-90% 的性能,并探究了其他理性方面的影响。
Dec, 2022
本文提出了一种新颖的表格格式 CoT 提示方法,命名为 Tab-CoT 方法,可以在高度结构化的方式下明确地建模复杂的推理过程,通过在一系列推理任务中的实验证明了该方法的强大的零射击和少射击能力。
May, 2023