一步步采样:适应性一致性用于 LLMs 高效推理
本文介绍了一个新的方法,通过扩展自一致性的应用范围并使用轻量级无参数相似函数,改善了大规模预训练语言模型生成的质量和一致性,包括代码生成、自动格式化和文本摘要任务。
Jul, 2023
在含糊的整数序列填充任务中,我们在 OpenAI 模型套件上进行了一系列行为实验,发现平均一致性介于 67%和 82%之间,远高于模型一致性随机的预测,并随着模型能力的提高而增加。此外,我们发现模型在自我一致性上具有不良标定性,并且通常倾向于在潜在的答案中分配显著的权重。
Oct, 2023
大语言模型(LLMs)的生成可以通过对多个解决方案进行采样和评分来提高。目前的 “采样和选择” 方法依靠多数投票来评分答案,但是在任务具有许多不同且有效的答案时,通过投票选择需要大量的样本,这使得对于涉及顺序生成多个操作(答案)的交互式任务来说,SC 的代价过高。我们展示了如何通过软化评分准则来提高成功率,并引入了软自一致性(Soft-SC),用模型可能性计算连续得分来代替 SC 的不连续评分,使其能够在操作稀疏分布时进行选择。Soft-SC 在长时间跨度的交互任务上提高了性能和效率,相比于 SC,所需样本仅一半或更少,并在编写 bash 程序时的绝对成功率上比 SC 提高了 1.3%,在在线购物(WebShop)上提高了 6.6%,在交互式家庭游戏(ALFWorld)上提高了 4.7%。最后,我们证明了 Soft-SC 可以应用于开源和黑盒模型。
Feb, 2024
通过从多个随机抽样的模型生成的分布中导出确定度來提高大型语言模型 (LLM) 预测的准确度。在多个开放和闭源模型上进行广泛评估,结果表明基于一致性的校准方法优于现有的事后方法,并提供了选择适用于不同 LLMs 特性的合适一致性度量标准的实用指南。
Feb, 2024
本论文主要研究大型语言模型在多步推理中的自我一致性表现,提出假设一致性和组合一致性两个重要概念,并实现对 GPT-3 模型在维基百科,日常对话,算术和地理查询任务中表现不佳的演示。
May, 2023
利用大型语言模型采样的多个推理路径,结合自我一致性和链式思维提示,在各种具有挑战性的任务上取得了显著的性能提升。本研究提出了一种通用的自我一致性方法(USC),它利用语言模型自身从多个候选答案中选择最一致的答案。我们在包括数学推理、代码生成、长篇摘要和开放式问答在内的多个数据集上评估了 USC 的性能。在原来的自我一致性方法不适用的开放式生成任务中,USC 有效利用多个样本并提高了性能。对于数学推理,USC 在不要求答案格式相似的情况下,达到了标准自我一致性的性能。最后,在无法访问执行结果的情况下,USC 也达到了代码生成中基于执行的投票性能。
Nov, 2023
定义了指令不一致问题并提出了两阶段训练框架,在第一阶段通过相似指令增强帮助模型跟随指令,第二阶段通过区分相似回应中微小差异来提高模型的多样性和人类期望的一致性,并通过自奖励训练过程来验证该框架的有效性。
Mar, 2024
研究中提出了 ConsisEval 基准,用于量化大型语言模型的一致性,并通过相对一致性得分分析改进一致性的潜力。综合实验结果表明,尽管 GPT-4 的一致性得分最高,但仍然对特定问题存在不一致性,这可能是由于多余信息干扰、对问题的错误解读等因素导致的。而能力更强的模型通常具有更高的一致性,但也存在例外情况,并且硬数据能够提高微调和上下文学习的一致性。
Jun, 2024