自洽性提高语言模型的思维连贯性推理能力
通过自一致性和自一致性来解决链式思考提示中的贪婪解码的问题,并提出了自一致性的方法,它能够在几乎所有场景中得到优化,同时在六个公开推理基准中表现出显著的性能和卓越的普适性。
Nov, 2023
利用大型语言模型采样的多个推理路径,结合自我一致性和链式思维提示,在各种具有挑战性的任务上取得了显著的性能提升。本研究提出了一种通用的自我一致性方法(USC),它利用语言模型自身从多个候选答案中选择最一致的答案。我们在包括数学推理、代码生成、长篇摘要和开放式问答在内的多个数据集上评估了 USC 的性能。在原来的自我一致性方法不适用的开放式生成任务中,USC 有效利用多个样本并提高了性能。对于数学推理,USC 在不要求答案格式相似的情况下,达到了标准自我一致性的性能。最后,在无法访问执行结果的情况下,USC 也达到了代码生成中基于执行的投票性能。
Nov, 2023
该研究提出了一种名为 Self-Polish 的新方法,旨在通过引导模型逐步精炼给定的问题,以提高其问题解决能力,与其他提示方法正交,有效地提高了针对不同数据集的 Few-Shot 学习和 CoT 模型的表现。
May, 2023
本文介绍了一个新的方法,通过扩展自一致性的应用范围并使用轻量级无参数相似函数,改善了大规模预训练语言模型生成的质量和一致性,包括代码生成、自动格式化和文本摘要任务。
Jul, 2023
通过 chain of thought prompting 方法,在大型语言模型中提供少量的思维链示例可以显著提高其在各类数学、常识和符号推理任务上的性能,甚至超过 fine-tuned GPT-3。
Jan, 2022
通过检查中间层解码的潜在预测的一致性,我们提出了内部一致性作为模型信心的度量,这有效地区分了正确和错误的推理路径,并通过加权具有高内部一致性的推理路径来调整链式推理,从而显著提高了推理性能。我们的结果表明,内部表示的使用可以将 LLMs 自我评估的潜力展现出来。
May, 2024
提出 Faithful CoT 框架以实现准确性和真实性的协同作用,通过将推理任务分解为翻译和问题求解两个阶段,使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。
Jan, 2023
我们提出了一种简单且可扩展的采样过程 ESC,用于减少 Self-consistency 的成本,并在不牺牲性能的情况下动态选择性能成本平衡的控制方案。通过在算术、常识和符号推理任务上进行实验证明,ESC 显著降低了链式思维推理的平均采样数量,同时具有可比性的性能。
Jan, 2024
我们提出了对比思维链来增强语言模型推理,通过提供有效和无效的推理示范,引导模型逐步推理并减少推理错误。在推理基准测试中,对比思维链能够作为思维链提示的一种普遍增强。
Nov, 2023