扩增偏差一致性训练降低思维连贯中的偏见推理

Mar, 2024

扩增偏差一致性训练降低思维连贯中的偏见推理

Bias-Augmented Consistency Training Reduces Biased Reasoning in Chain-of-Thought

James Chua, Edward Rees, Hunar Batra, Samuel R. Bowman, Julian Michael...

TL;DR应用偏差增强的一致性训练（BCT）在 GPT-3.5-Turbo 模型上，可以降低严重的偏差性推理达到 86%，平均减少 37% 的偏差性推理，并可以适应未知偏差领域和没有金标的任务。

Abstract

While chain-of-thought prompting (CoT) has the potential to improve the explainability of language model reasoning, it can systematically misrepresent the factors influencing models' behavior--for example, ration

chain-of-thought prompting explainability biased reasoning bias-augmented consistency training question-answering tasks

发现论文，激发创造

语言模型并不总是说他们想的：链状思维提示中的不忠实解释

本研究发现 Large Language Models 的 Chain-of-Thought Reasoning （思维的串联过程）能够提供合理的解释，但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识，这可能导致人们过度信任 LLMs 的预测结果，因此有必要针对模型解释的忠实度进行有针对性的评估和改进，特别是在社会偏见问题方面。

May, 2023

忠实的串联思考推理

提出 Faithful CoT 框架以实现准确性和真实性的协同作用，通过将推理任务分解为翻译和问题求解两个阶段，使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。

Jan, 2023

验证和编辑：一种知识增强的思维链框架

本文提出了一种用于 CoT 提示的 Verify-and-Edit 框架，通过使用外部知识来编辑推理链以提高其准确性，改善了大语言模型中存在的缺陷，实现了在多个开放型问题回答任务中的准确度提升。

May, 2023

R$^3$ 提示：在嘈杂的语境下为大型语言模型的思路链进行检查、改述和解决

通过使用 R3 提示方法来处理嘈杂语境下的 CoT 推理，能够提高 LLM 在推理任务中的准确性。与现有的 CoT 提示方法相比，R3 提示方法在噪声环境下显著优越，通过与 GPT-3.5-turbo 的实验观察，平均推理准确性提高了 3.7％。该方法在解决噪声环境下 LLM 的推理任务时表现出了强大的鲁棒性和普适性。

Oct, 2023

RCOT：通过逆向思路链来检测和纠正推理中的事实不一致性

本文提出了一种新方法 RCoT，通过自动检测和纠正 LLMs 生成的解决方案中的事实不一致性，以 fine-grained feedback 指导 LLMs 修改解决方案，从而改进 LLMs 在算术推理任务中的推理能力。实验结果表明，RCoT 相对于标准的 CoT 在七个算术数据集上有一致的改进。此外，发现手动编写的精细反馈可以显着提高 LLMs 的推理能力，并鼓励社区进一步探索 fine-grained feedback 生成方法。

May, 2023

通过潜变量推断训练思维链

大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释，一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而，我们提出了一种微调策略，尝试通过使用思维链提示最大化生成正确答案的`` 边际 '' 对数似然，大致平均所有可能的解释。我们使用受自学习推理器、备忘录式唤醒 - 休眠、马尔可夫性分数爬升和持续对比散度启发的简单马尔可夫链蒙特卡罗 - 期望最大化 (EM) 算法来解决条件于正确答案的解释后验分布的采样问题，并采用一种新颖的控制变量技术，随着模型的改进，将逐渐降低梯度估计的方差。将我们的技术应用于 GSM8K 和 BIG-Bench Hard 中的任务，我们发现这种 MCMC-EM 微调技术通常比 STaR 或带有或不带有思维链提示的微调方法在留存样例上提高模型准确性。

Nov, 2023

大型语言模型是推理教师

本研究提出了 Fine-tune-CoT 方法，该方法利用非常大的语言模型以生成推理样本并通过微调来教授较小的模型，从而在较小的模型中实现了大量的推理能力优化。

Dec, 2022

大型语言模型的思路链测试

通过对 Chain-of-Thought（CoT）提示方式的研究，我们发现 CoT 的正确操作和数值是 GPT-3 在各种任务中获得准确答案的关键，而错误操作会对性能产生负面影响，这项研究加深了我们对 CoT 提示方式的理解，也提出了有关大语言模型在上下文中学习推理能力的新问题。

Sep, 2023

瞄准内部一致性：对语言模型进行推理校准

通过检查中间层解码的潜在预测的一致性，我们提出了内部一致性作为模型信心的度量，这有效地区分了正确和错误的推理路径，并通过加权具有高内部一致性的推理路径来调整链式推理，从而显著提高了推理性能。我们的结果表明，内部表示的使用可以将 LLMs 自我评估的潜力展现出来。

May, 2024

使用选择性过滤减轻具有误导性的连续思维推理

通过选择性过滤推理程序（SelF-Reasoner）提高了大型语言模型的链式思考推理能力，进而改进了基于 T5 模型的科学问题、Bluetooth 问题和最后一个字母问题的解答质量。

Mar, 2024