语言模型代理的软自一致性改进

Feb, 2024

Soft Self-Consistency Improves Language Model Agents

Han Wang, Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal

TL;DR大语言模型（LLMs）的生成可以通过对多个解决方案进行采样和评分来提高。目前的 “采样和选择” 方法依靠多数投票来评分答案，但是在任务具有许多不同且有效的答案时，通过投票选择需要大量的样本，这使得对于涉及顺序生成多个操作（答案）的交互式任务来说，SC 的代价过高。我们展示了如何通过软化评分准则来提高成功率，并引入了软自一致性（Soft-SC），用模型可能性计算连续得分来代替 SC 的不连续评分，使其能够在操作稀疏分布时进行选择。Soft-SC 在长时间跨度的交互任务上提高了性能和效率，相比于 SC，所需样本仅一半或更少，并在编写 bash 程序时的绝对成功率上比 SC 提高了 1.3％，在在线购物（WebShop）上提高了 6.6％，在交互式家庭游戏（ALFWorld）上提高了 4.7％。最后，我们证明了 Soft-SC 可以应用于开源和黑盒模型。

Abstract

Generations from large language models (LLMs) can be improved by sampling and scoring multiple solutions to select a final answer. Current

large language models sampling scoring soft self-consistency interactive tasks

发现论文，激发创造

开放式生成的自我一致性

本文介绍了一个新的方法，通过扩展自一致性的应用范围并使用轻量级无参数相似函数，改善了大规模预训练语言模型生成的质量和一致性，包括代码生成、自动格式化和文本摘要任务。

Jul, 2023

一步步采样：适应性一致性用于 LLMs 高效推理

本文介绍了一种新的自适应一致性技术，用于提高大型语言模型输出结果的正确性和降低采样成本，实验证明该技术能够将采样成本降低最多 6 倍并且保持高精度。

May, 2023

大型语言模型生成的通用自一致性

利用大型语言模型采样的多个推理路径，结合自我一致性和链式思维提示，在各种具有挑战性的任务上取得了显著的性能提升。本研究提出了一种通用的自我一致性方法（USC），它利用语言模型自身从多个候选答案中选择最一致的答案。我们在包括数学推理、代码生成、长篇摘要和开放式问答在内的多个数据集上评估了 USC 的性能。在原来的自我一致性方法不适用的开放式生成任务中，USC 有效利用多个样本并提高了性能。对于数学推理，USC 在不要求答案格式相似的情况下，达到了标准自我一致性的性能。最后，在无法访问执行结果的情况下，USC 也达到了代码生成中基于执行的投票性能。

Nov, 2023

大规模语言模型在歧义下的自一致性

在含糊的整数序列填充任务中，我们在 OpenAI 模型套件上进行了一系列行为实验，发现平均一致性介于 67％和 82％之间，远高于模型一致性随机的预测，并随着模型能力的提高而增加。此外，我们发现模型在自我一致性上具有不良标定性，并且通常倾向于在潜在的答案中分配显著的权重。

Oct, 2023

通过多角度自一致性在编码中增强大型语言模型

在本文中，我们提出了多视角自一致性（MPSC）框架，这是一种新的用于大型语言模型（LLMs）的解码策略，它既包含了不同视角之间的一致性，也包含了单一视角内的一致性。通过在给定查询中对 LLMs 进行多样化采样，构建多分图并利用一致性分析来确定最优选择，我们的 MPSC 框架显著提高了代码生成任务的性能，甚至超过了 GPT-4。

Sep, 2023

多数原则：自洽性更好的修补

本文介绍了将基于自我一致性的技术应用于程序修复，并使用提交日志作为解释性示例输入来实现此目标，该方法在 MODIT 数据集上取得了领先的效果。

May, 2023

逃离高昂成本：多步推理的早停自一致性

我们提出了一种简单且可扩展的采样过程 ESC，用于减少 Self-consistency 的成本，并在不牺牲性能的情况下动态选择性能成本平衡的控制方案。通过在算术、常识和符号推理任务上进行实验证明，ESC 显著降低了链式思维推理的平均采样数量，同时具有可比性的性能。

Jan, 2024

更准确的开放式回答的自洽解码

通过将多个样本与先前的选择相结合，基于简单的令牌重叠评分，我们将 “Sample & Select” 方法与其他几种解码算法进行比较，证明其在基于 NLI 的 CNN/DM 和 XSum 子集的 FRANK 基准测试中，相对于其他解码算法（DoLA、P-CRR 和 S-CRR）提高了 30% 的事实性，而对参考摘要维持可比的 ROUGE-1 F1 得分，并通过对生成摘要的人工验证进一步证实了我们方法的事实优越性。

Mar, 2024

原子自洽的长篇生成改进

提出了原子自洽（ASC）技术，通过合并多个样本中的相关子部分以提高长篇回答的信息检索能力，而不仅仅关注单个样本的抽取，该技术表现出明显优于 “Universal Self-Consistency”（USC）的效果，并在多个事实和开放式问答数据集上显示出未开发的提升长篇生成的潜力。

May, 2024

用样本一致性校准大型语言模型

通过从多个随机抽样的模型生成的分布中导出确定度來提高大型语言模型 (LLM) 预测的准确度。在多个开放和闭源模型上进行广泛评估，结果表明基于一致性的校准方法优于现有的事后方法，并提供了选择适用于不同 LLMs 特性的合适一致性度量标准的实用指南。

Feb, 2024