再问一次:自我一致性提升(几乎)所有情境下的语言模型推理能力
该研究提出了一种名为 Self-Polish 的新方法,旨在通过引导模型逐步精炼给定的问题,以提高其问题解决能力,与其他提示方法正交,有效地提高了针对不同数据集的 Few-Shot 学习和 CoT 模型的表现。
May, 2023
利用大型语言模型采样的多个推理路径,结合自我一致性和链式思维提示,在各种具有挑战性的任务上取得了显著的性能提升。本研究提出了一种通用的自我一致性方法(USC),它利用语言模型自身从多个候选答案中选择最一致的答案。我们在包括数学推理、代码生成、长篇摘要和开放式问答在内的多个数据集上评估了 USC 的性能。在原来的自我一致性方法不适用的开放式生成任务中,USC 有效利用多个样本并提高了性能。对于数学推理,USC 在不要求答案格式相似的情况下,达到了标准自我一致性的性能。最后,在无法访问执行结果的情况下,USC 也达到了代码生成中基于执行的投票性能。
Nov, 2023
在这篇文章中,我们提出了自主启发式链式思考 (SP-CoT) 自动化框架,用于大规模生成高质量的多跳推理数据集并通过上下文学习实现自主启发式推理,实验证明 SP-CoT 在大规模和小规模语言模型上的性能均显著优于前沿方法,并能在中间步骤中召回约 50% 的中间答案。
Oct, 2023
提出 Faithful CoT 框架以实现准确性和真实性的协同作用,通过将推理任务分解为翻译和问题求解两个阶段,使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。
Jan, 2023
本文提出了一种名为 Self-Agreement 的新框架,该框架利用由大型语言模型生成的数据来自主找到多种意见之间的一致性,通过 fine-tuning 模型,比 GPT-3 具有更高的识别多种意见之间一致性的性能,并且只需要 GPT-3 的 1/25 的参数。
May, 2023
本研究通过一种自洽的跨语言提示机制,提出了一种跨语言多步推理方法,可以在不同语言中实现多步推理路径,从而达到解决复杂推理任务的目的,并在实验评估中表现出比现有提示方法更优的性能。
Nov, 2023
聚焦大型语言模型,探索通过自我解释生成复杂问题的过程,发现自我解释可以使模型更自信、更准确、更少倾向性地回答问题,甚至在几个复杂问题回答数据集上优于人工生成的示例。
Nov, 2023
通过模拟推理为大型语言模型自动生成相关样本或知识的新提示方法在各种推理任务中表现优于零示范的链式思考提示和人工少量示范的链式思考,包括 GSM8K 和 MATH 中的数学问题解决、Codeforces 中的代码生成和 BIG-Bench 中的其他推理任务。
Oct, 2023