多数原则:自洽性更好的修补
本研究发现 Large Language Models 的 Chain-of-Thought Reasoning (思维的串联过程)能够提供合理的解释,但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识,这可能导致人们过度信任 LLMs 的预测结果,因此有必要针对模型解释的忠实度进行有针对性的评估和改进,特别是在社会偏见问题方面。
May, 2023
大型语言模型 (LLMs) 可以通过后期或思维链 (CoT) 解释自己的预测结果,但模型可能会提供合理但不准确的解释。本文对现有的忠诚度测试进行了评估,认为这些测试实际上只测量了模型输出的自我一致性,而非其内部工作的忠诚度。作者提出了基于自我一致性的新测量 CC-SHAP,通过比较模型的输入贡献与答案预测及生成解释之间的一致性,从而更准确地衡量模型的忠诚度。
Nov, 2023
聚焦大型语言模型,探索通过自我解释生成复杂问题的过程,发现自我解释可以使模型更自信、更准确、更少倾向性地回答问题,甚至在几个复杂问题回答数据集上优于人工生成的示例。
Nov, 2023
大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释,一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而,我们提出了一种微调策略,尝试通过使用思维链提示最大化生成正确答案的`` 边际 '' 对数似然,大致平均所有可能的解释。我们使用受自学习推理器、备忘录式唤醒 - 休眠、马尔可夫性分数爬升和持续对比散度启发的简单马尔可夫链蒙特卡罗 - 期望最大化 (EM) 算法来解决条件于正确答案的解释后验分布的采样问题,并采用一种新颖的控制变量技术,随着模型的改进,将逐渐降低梯度估计的方差。将我们的技术应用于 GSM8K 和 BIG-Bench Hard 中的任务,我们发现这种 MCMC-EM 微调技术通常比 STaR 或带有或不带有思维链提示的微调方法在留存样例上提高模型准确性。
Nov, 2023
本研究提出了一种基于一致性的自适应提示设计方法,可以从大型语言模型的零样本输出中选择和构建示例,进而显著提高了零样本情况下三种不同大型语言模型的推理任务的性能。
May, 2023
利用大型语言模型采样的多个推理路径,结合自我一致性和链式思维提示,在各种具有挑战性的任务上取得了显著的性能提升。本研究提出了一种通用的自我一致性方法(USC),它利用语言模型自身从多个候选答案中选择最一致的答案。我们在包括数学推理、代码生成、长篇摘要和开放式问答在内的多个数据集上评估了 USC 的性能。在原来的自我一致性方法不适用的开放式生成任务中,USC 有效利用多个样本并提高了性能。对于数学推理,USC 在不要求答案格式相似的情况下,达到了标准自我一致性的性能。最后,在无法访问执行结果的情况下,USC 也达到了代码生成中基于执行的投票性能。
Nov, 2023
利用自洽性检查作为一种忠实度测量,将其应用于大型语言模型自我解释的三种类型,即反事实解释、重要性度量和删除。通过不同任务和模型,发现忠实度是任务和模型相关的,例如对于情感分类,Llama2 的反事实解释、Mistral 的重要性度量和 Falcon 40B 的删除是更加忠实的。最后,我们的发现在提示变体方面是稳健的。
Jan, 2024
最近大语言模型(LLM),特别是链式思维(CoT)提示的发明,使得解决推理问题成为可能。本文探讨 LLMs 是否具备识别自身错误的能力,无需外部资源。具体而言,我们研究它们是否能够用于识别逐步推理中的个别错误。为此,我们提出了一种零 - shot 验证方案来识别这些错误。然后,我们使用这个验证方案来提高问题回答的性能,通过对不同生成答案进行加权投票。我们在三个数学数据集 - GSM8K,MathQA 和 MATH 上测试了该方法,发现它成功地识别错误,并进而提高了最终的预测性能。
Aug, 2023
提出了一种名为自验证的方法,该方法使用推理链的结论作为条件建立新的样本,并要求大型语言模型重新预测原始条件,从而降低了多任务精度误差。经过大量实验验证,此方法可以使大型语言模型避免出现不正确的推理链干扰,并实现具有竞争力的推理性能,可用于算术和逻辑推理数据集的有限次学习。
Dec, 2022