思维链推理是一种策略改进算子

Sep, 2023

Chain-of-Thought Reasoning is a Policy Improvement Operator

Hugh Zhang, David C. Parkes

TL;DR通过思维链推理自主学习的大语言模型可以教会自己新技能，超越了依赖大量人工生成数据进行训练的能力。

Abstract

large language models have astounded the world with fascinating new capabilities. However, they currently lack the ability to teach themselves new skills, relying instead on being trained on large amounts of huma

large language models self-education chain-of-thought reasoning autonomous learning language models

发现论文，激发创造

通过逻辑增强大型语言模型中的零射连续推理

利用逻辑链思维 (LogiCoT) 的神经符号框架，大规模语言模型提供了更强的零编码链式思维推理能力。实验证明了逻辑增强的推理范式在算术、常识、符号、因果推断和社会问题等多个领域的语言任务中的有效性。

Sep, 2023

通过知识蒸馏进行的隐含推理链条

使用语言模型的内部隐藏状态进行隐式推理，通过垂直在不同层的隐藏状态中进行推理来解决以前无法解决的任务，而无需进行明确的思维链条推理。

Nov, 2023

链式思考引导大型语言模型推理

通过 chain of thought prompting 方法，在大型语言模型中提供少量的思维链示例可以显著提高其在各类数学、常识和符号推理任务上的性能，甚至超过 fine-tuned GPT-3。

Jan, 2022

符号链式思考精华提炼：小型模型也能逐步 “思考

本文介绍了一种名为 Symbolic Chain-of-Thought Distillation (SCoTD) 的方法，在巨大的语言模型的注释和参数的指导下，训练参数远低于 50B 的较小模型，在几种常识基准测试中证明了在有监督和少样本学习环境下可以提高性能。

Jun, 2023

使用选择性过滤减轻具有误导性的连续思维推理

通过选择性过滤推理程序（SelF-Reasoner）提高了大型语言模型的链式思考推理能力，进而改进了基于 T5 模型的科学问题、Bluetooth 问题和最后一个字母问题的解答质量。

Mar, 2024

思维链的强弱取决于最薄弱一环：推理链验证器的基准评估

我们引入了 Reveal：推理验证评估，这是一个新的数据集，用于在开放域问题回答设置中评估复杂的链式推理的自动验证器，包括语言模型的答案中每个推理步骤的相关性、证据归因和逻辑正确性的全面标签。

Feb, 2024

思维的连锁：计划中 CoT 的分析

根据 Blocksworld 的案例研究，通过链式思维问题可以提高大型语言模型的性能，但需要高度问题特定的提示，并且存在性能改善和生成正确推理示例所需人力之间的明显权衡。

May, 2024

视觉语言模型中思维链路提示调优

本文提出了一种基于连锁式思维提示调整的视觉语言建模方法，经过广泛的实验验证，我们的方法在图像分类任务中的泛化能力更强，在单个数据集之外具有更强的可转移性和更强的领域泛化性能，而且在需要更多推理能力的图像文本检索和视觉问答方面表现更好。

Apr, 2023

教授小型语言模型推理

本文探讨通过知识蒸馏将大型语言模型的推理能力迁移至小于 1000 亿参数的模型，实现任务的表现提升，对算术、常识和符号推理数据集效果显著，例如在 PaLM-540B 生成的思考链上进行微调后，T5 XXL 在 GSM8K 的准确率从 8.11％提高至 21.99％。

Dec, 2022

串联同时思考进行数字推理

本文提出了一种名为 CANTOR 的数值推理算法，在不预定义解码依赖关系的情况下同时生成多种推理步骤，并比较并链接相关步骤以达到求解问题的目的。

Nov, 2022