对比的思维链路提示

Nov, 2023

Contrastive Chain-of-Thought Prompting

Yew Ken Chia, Guizhen Chen, Luu Anh Tuan, Soujanya Poria, Lidong Bing

TL;DR我们提出了对比思维链来增强语言模型推理，通过提供有效和无效的推理示范，引导模型逐步推理并减少推理错误。在推理基准测试中，对比思维链能够作为思维链提示的一种普遍增强。

Abstract

Despite the success of chain of thought in enhancing language model reasoning, the underlying process remains less well understood. Although logically sound reasoning appears inherently crucial for chain of thought

chain of thought language model reasoning invalid demonstrations contrastive chain of thought reasoning mistakes

发现论文，激发创造

链式思考引导大型语言模型推理

通过 chain of thought prompting 方法，在大型语言模型中提供少量的思维链示例可以显著提高其在各类数学、常识和符号推理任务上的性能，甚至超过 fine-tuned GPT-3。

Jan, 2022

视觉语言模型中思维链路提示调优

本文提出了一种基于连锁式思维提示调整的视觉语言建模方法，经过广泛的实验验证，我们的方法在图像分类任务中的泛化能力更强，在单个数据集之外具有更强的可转移性和更强的领域泛化性能，而且在需要更多推理能力的图像文本检索和视觉问答方面表现更好。

Apr, 2023

合成提示：生成大型语言模型的思维链演示

本文介绍了 Synthetic prompting 方法，该方法利用少量手工示例来提示模型自行生成更多示例，并选择有效的演示文稿以引出更好的推理。在数字、符号和算法推理任务上评估了该方法，并表明其优于现有提示技术。

Feb, 2023

走向理解思路链提示：对重要性的经验研究

本论文研究了 Chain-of-Thought 提示对大型语言模型的多步推理能力的影响，发现即使使用无效的推理步骤，其提示也能达到 80-90% 的性能，并探究了其他理性方面的影响。

Dec, 2022

思维链的强弱取决于最薄弱一环：推理链验证器的基准评估

我们引入了 Reveal：推理验证评估，这是一个新的数据集，用于在开放域问题回答设置中评估复杂的链式推理的自动验证器，包括语言模型的答案中每个推理步骤的相关性、证据归因和逻辑正确性的全面标签。

Feb, 2024

思维的连锁：计划中 CoT 的分析

根据 Blocksworld 的案例研究，通过链式思维问题可以提高大型语言模型的性能，但需要高度问题特定的提示，并且存在性能改善和生成正确推理示例所需人力之间的明显权衡。

May, 2024

在大型语言模型中通过迭代引导提高思维链路提示

通过使用迭代的引导选择，我们介绍了迭代链式思考（Iter-CoT）方法，该方法可以使大型语言模型（LLM）自主纠正错误，同时选择具有适度难度的挑战性问题作为样本，从而增强 LLM 对于不同难度的推理任务的泛化能力。实验结果表明 Iter-CoT 方法在 11 个数据集上展现出卓越的性能表现。

Apr, 2023

使用链式知识提示提升语言模型推理能力

引入了一种新的 Chain-of-Knowledge (CoK) 提示方法，旨在引导强大的语言模型（LLMs）生成显式的知识证明作为结构三元组，从而改进 Commonsense、事实、符号和算术推理任务的性能，并引入 F^2-Verification 方法估计链的可靠性

Jun, 2023

大型语言模型的自动思维联想提示

本论文提出一种基于链式推理的自动提问方法 Auto-CoT，通过采样具有多样性的问题并生成推理链来构建演示，在十项公共基准推理任务中，Auto-CoT 不断匹配或超越需要手动设计演示的 CoT 范例的性能。

Oct, 2022

链式思维引导的通用验证

通过探索不同的思维链和验证推理过程中的各个步骤，我们提出了三个模型应遵循的原则（相关性、数学准确性和逻辑一致性），并将这些原则应用于大型语言模型的推理步骤，以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成，我们在 4 种不同类型的推理任务上评估了我们的方法，涵盖了共计 9 个不同的数据集。实验证明，我们的方法始终优于基准生成，并且在 9 个数据集中的 6 个数据集中，优于最佳的 N 个采样方法。

Apr, 2024