反馈链:缓解响应一致性的影响
本文提出了一种用于 CoT 提示的 Verify-and-Edit 框架,通过使用外部知识来编辑推理链以提高其准确性,改善了大语言模型中存在的缺陷,实现了在多个开放型问题回答任务中的准确度提升。
May, 2023
本研究发现 Large Language Models 的 Chain-of-Thought Reasoning (思维的串联过程)能够提供合理的解释,但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识,这可能导致人们过度信任 LLMs 的预测结果,因此有必要针对模型解释的忠实度进行有针对性的评估和改进,特别是在社会偏见问题方面。
May, 2023
我们提出了一种粗细链式思维(CoF-CoT)方法,将自然语言理解任务分解为多个推理步骤,以便大型语言模型学习获取和利用解决不同粒度任务所需的关键概念,并利用基于语义的抽象意义表示(AMR)结构化知识作为中间步骤,捕捉话语的细微差别和多样性结构,并理解它们的不同层次之间的联系。我们的方法在零样本和少样本多领域设置下,证明了对大型语言模型在多粒度自然语言理解任务中的辅助作用。
Oct, 2023
Chain-of-Thought 提示可以增强大型语言模型(LLMs)的推理能力,现有的 CoT 综合方法针对简单推理任务,导致 CoT 提示的质量低且不一致。为了应对这一挑战,我们进行了 CoT 提示的实证研究并引入了 CoTGenius,一个用于自动生成优质 CoT 提示的新框架。我们进一步采用 CoTGenius 创建了一个广泛的 CoT 数据集,并在该数据集上对 Llama 2-Chat 7B 和 13B 模型进行了微调,得到了 ChainLM 模型。为了解决推理步骤中的累积误差问题,我们提出了一种步骤级辩论方法,其中多个辩论者讨论每个推理步骤,得出正确答案。大量实验证明,与现有模型相比,我们的 ChainLM 模型在解决一系列复杂推理问题方面表现出更高的熟练度。此外,我们对 CoTGenius 中的数据类别对模型性能的影响进行了深入分析。我们在此 https URL 上发布了我们的数据集和代码。
Mar, 2024
利用教育中的质问策略,我们提出了一种 “跟进质问机制” 以及两个评估指标,用于评估大型语言模型在面对质疑时的判断一致性,并对 ChatGPT、PaLM2-Bison 和 Vicuna-13B 进行了评估。实证结果表明,即使初始答案是正确的,当语言模型面临质疑、否定或误导等干扰时,判断一致性会大幅降低。此外,我们还研究了不同设置下模型的判断一致性,并观察了提示语气对此问题的影响,进行了深入的错误分析以获得更深入的行为洞察。此外,我们还探索了几种提示方法以缓解此问题,并展示了它们的有效性。
Oct, 2023
大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释,一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而,我们提出了一种微调策略,尝试通过使用思维链提示最大化生成正确答案的`` 边际 '' 对数似然,大致平均所有可能的解释。我们使用受自学习推理器、备忘录式唤醒 - 休眠、马尔可夫性分数爬升和持续对比散度启发的简单马尔可夫链蒙特卡罗 - 期望最大化 (EM) 算法来解决条件于正确答案的解释后验分布的采样问题,并采用一种新颖的控制变量技术,随着模型的改进,将逐渐降低梯度估计的方差。将我们的技术应用于 GSM8K 和 BIG-Bench Hard 中的任务,我们发现这种 MCMC-EM 微调技术通常比 STaR 或带有或不带有思维链提示的微调方法在留存样例上提高模型准确性。
Nov, 2023
该论文介绍了一种针对大型语言模型的链式思维激励下的后门攻击方法,该方法利用模型的推理能力,通过在模型输出的推理步骤序列中插入后门推理步骤,从而改变当查询激发后门触发器时的最终响应。实验证明,该后门攻击方法对多个大型语言模型具有很高的攻击成功率,并且现有的防御方法对其并不有效。因此,该后门攻击方法对大型语言模型构成严重威胁,并强调了对强大、有效的未来防御方法的迫切需求。
Jan, 2024
本文提出了一种名为 “特定性链” 的简单而有效的方法,通过迭代地强调输入指令中的特定约束条件来解锁 LLM 内部的知识,并改进生成的回复内容,实验证明该方法在增强生成内容方面表现优于现有方法,特别是在特定性方面。
Feb, 2024
引入了一种新的 Chain-of-Knowledge (CoK) 提示方法,旨在引导强大的语言模型(LLMs)生成显式的知识证明作为结构三元组,从而改进 Commonsense、事实、符号和算术推理任务的性能,并引入 F^2-Verification 方法估计链的可靠性
Jun, 2023