反馈链：缓解响应一致性的影响

Feb, 2024

Chain-of-Feedback: Mitigating the Effects of Inconsistency in Responses

Jinwoo Ahn

TL;DRAI 模型如 ChatGPT 存在可靠性和一致性问题，本文通过引入 Chain-of-Feedback 触发模型偏离实际答案，提出一种新的提示方法 Recursive Chain of Feedback (R-CoF)，以修正模型最初错误的推理。

Abstract

large language models (LLMs) frequently suffer from knowledge-intensive questions, often being inconsistent by providing different outputs despite given the same input. The response quality worsens when the user

large language models chain-of-feedback recursive chain of feedback response quality revising reasoning

发现论文，激发创造

验证和编辑：一种知识增强的思维链框架

本文提出了一种用于 CoT 提示的 Verify-and-Edit 框架，通过使用外部知识来编辑推理链以提高其准确性，改善了大语言模型中存在的缺陷，实现了在多个开放型问题回答任务中的准确度提升。

May, 2023

语言模型并不总是说他们想的：链状思维提示中的不忠实解释

本研究发现 Large Language Models 的 Chain-of-Thought Reasoning （思维的串联过程）能够提供合理的解释，但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识，这可能导致人们过度信任 LLMs 的预测结果，因此有必要针对模型解释的忠实度进行有针对性的评估和改进，特别是在社会偏见问题方面。

May, 2023

CoF-CoT：面向多域 NLU 任务的粗到细思维链路提示技术增强大型语言模型

我们提出了一种粗细链式思维（CoF-CoT）方法，将自然语言理解任务分解为多个推理步骤，以便大型语言模型学习获取和利用解决不同粒度任务所需的关键概念，并利用基于语义的抽象意义表示（AMR）结构化知识作为中间步骤，捕捉话语的细微差别和多样性结构，并理解它们的不同层次之间的联系。我们的方法在零样本和少样本多领域设置下，证明了对大型语言模型在多粒度自然语言理解任务中的辅助作用。

Oct, 2023

ChainLM: 通过改进思维连贯性促进大型语言模型的能力

Chain-of-Thought 提示可以增强大型语言模型（LLMs）的推理能力，现有的 CoT 综合方法针对简单推理任务，导致 CoT 提示的质量低且不一致。为了应对这一挑战，我们进行了 CoT 提示的实证研究并引入了 CoTGenius，一个用于自动生成优质 CoT 提示的新框架。我们进一步采用 CoTGenius 创建了一个广泛的 CoT 数据集，并在该数据集上对 Llama 2-Chat 7B 和 13B 模型进行了微调，得到了 ChainLM 模型。为了解决推理步骤中的累积误差问题，我们提出了一种步骤级辩论方法，其中多个辩论者讨论每个推理步骤，得出正确答案。大量实验证明，与现有模型相比，我们的 ChainLM 模型在解决一系列复杂推理问题方面表现出更高的熟练度。此外，我们对 CoTGenius 中的数据类别对模型性能的影响进行了深入分析。我们在此 https URL 上发布了我们的数据集和代码。

Mar, 2024

联邦提示和思维链推理以提高 LLMs 的回答能力

通过使用自我一致性和思维链技术来改善云端大型语言模型中的分布式同义问题，可以显着提高所有用户查询的准确性。

Apr, 2023

再问一次，然后失败：大型语言模型在判断中的摇摆

利用教育中的质问策略，我们提出了一种 “跟进质问机制” 以及两个评估指标，用于评估大型语言模型在面对质疑时的判断一致性，并对 ChatGPT、PaLM2-Bison 和 Vicuna-13B 进行了评估。实证结果表明，即使初始答案是正确的，当语言模型面临质疑、否定或误导等干扰时，判断一致性会大幅降低。此外，我们还研究了不同设置下模型的判断一致性，并观察了提示语气对此问题的影响，进行了深入的错误分析以获得更深入的行为洞察。此外，我们还探索了几种提示方法以缓解此问题，并展示了它们的有效性。

Oct, 2023

通过潜变量推断训练思维链

大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释，一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而，我们提出了一种微调策略，尝试通过使用思维链提示最大化生成正确答案的`` 边际 '' 对数似然，大致平均所有可能的解释。我们使用受自学习推理器、备忘录式唤醒 - 休眠、马尔可夫性分数爬升和持续对比散度启发的简单马尔可夫链蒙特卡罗 - 期望最大化 (EM) 算法来解决条件于正确答案的解释后验分布的采样问题，并采用一种新颖的控制变量技术，随着模型的改进，将逐渐降低梯度估计的方差。将我们的技术应用于 GSM8K 和 BIG-Bench Hard 中的任务，我们发现这种 MCMC-EM 微调技术通常比 STaR 或带有或不带有思维链提示的微调方法在留存样例上提高模型准确性。

Nov, 2023

BadChain：大型语言模型的后门思维链触发

该论文介绍了一种针对大型语言模型的链式思维激励下的后门攻击方法，该方法利用模型的推理能力，通过在模型输出的推理步骤序列中插入后门推理步骤，从而改变当查询激发后门触发器时的最终响应。实验证明，该后门攻击方法对多个大型语言模型具有很高的攻击成功率，并且现有的防御方法对其并不有效。因此，该后门攻击方法对大型语言模型构成严重威胁，并强调了对强大、有效的未来防御方法的迫切需求。

Jan, 2024

特异性链：从大型语言模型中提取知识的迭代细化方法

本文提出了一种名为 “特定性链” 的简单而有效的方法，通过迭代地强调输入指令中的特定约束条件来解锁 LLM 内部的知识，并改进生成的回复内容，实验证明该方法在增强生成内容方面表现优于现有方法，特别是在特定性方面。

Feb, 2024

使用链式知识提示提升语言模型推理能力

引入了一种新的 Chain-of-Knowledge (CoK) 提示方法，旨在引导强大的语言模型（LLMs）生成显式的知识证明作为结构三元组，从而改进 Commonsense、事实、符号和算术推理任务的性能，并引入 F^2-Verification 方法估计链的可靠性

Jun, 2023