更准确的开放式回答的自洽解码

Mar, 2024

Self-Consistent Decoding for More Factual Open Responses

Christopher Malon, Xiaodan Zhu

TL;DR通过将多个样本与先前的选择相结合，基于简单的令牌重叠评分，我们将 “Sample & Select” 方法与其他几种解码算法进行比较，证明其在基于 NLI 的 CNN/DM 和 XSum 子集的 FRANK 基准测试中，相对于其他解码算法（DoLA、P-CRR 和 S-CRR）提高了 30% 的事实性，而对参考摘要维持可比的 ROUGE-1 F1 得分，并通过对生成摘要的人工验证进一步证实了我们方法的事实优越性。

Abstract

self-consistency has emerged as a powerful method for improving the accuracy of short answers generated by large language models. As previously defined, it only concerns the accuracy of a final answer parsed from generated text. In this work, we extend the idea to →

self-consistency open response generation sample & select method factuality improvement nli-based evaluation

发现论文，激发创造

开放式生成的自我一致性

本文介绍了一个新的方法，通过扩展自一致性的应用范围并使用轻量级无参数相似函数，改善了大规模预训练语言模型生成的质量和一致性，包括代码生成、自动格式化和文本摘要任务。

Jul, 2023

自然语言生成中的多样性与质量的权衡

将解码算法视为多目标优化问题，旨在同时最大化回应质量和多样性。当多样性是一个优先考虑的因素时，所有方法表现相似，但当质量被视为更重要时，近期提出的核采样 (nucleus sampling) 优于所有其他评估的解码算法。在这一发现的基础上，我们设计并评估了一种名为 “选择性抽样” 的算法，该算法可以近似全局归一化温度抽样。

Apr, 2020

关于从自然语言反馈中提高摘要的事实一致性

本文中，我们对自然语言生成功能的输出质量提出问题，通过收集人类演示和信息反馈数据集 DeFacto，我们进行了两项自然语言生成任务的研究，旨在通过实现信息反馈来提高自然语言生成模型的质量，改善与用户需求的匹配度。

Dec, 2022

自洽性提高语言模型的思维连贯性推理能力

本文提出了一种新的解码策略 self-consistency 来替代自我解释式激励中的贪心解码，从而在多种常识推理基准测试中提高其性能。

Mar, 2022

语言模型代理的软自一致性改进

大语言模型（LLMs）的生成可以通过对多个解决方案进行采样和评分来提高。目前的 “采样和选择” 方法依靠多数投票来评分答案，但是在任务具有许多不同且有效的答案时，通过投票选择需要大量的样本，这使得对于涉及顺序生成多个操作（答案）的交互式任务来说，SC 的代价过高。我们展示了如何通过软化评分准则来提高成功率，并引入了软自一致性（Soft-SC），用模型可能性计算连续得分来代替 SC 的不连续评分，使其能够在操作稀疏分布时进行选择。Soft-SC 在长时间跨度的交互任务上提高了性能和效率，相比于 SC，所需样本仅一半或更少，并在编写 bash 程序时的绝对成功率上比 SC 提高了 1.3％，在在线购物（WebShop）上提高了 6.6％，在交互式家庭游戏（ALFWorld）上提高了 4.7％。最后，我们证明了 Soft-SC 可以应用于开源和黑盒模型。

Feb, 2024

提高回复和角色真实事实之间的事实一致性

通过增加奖励机制，使用强化学习方法来提高响应与用户角色特征事实之间的一致性，从而促进神经模型的响应生成能力。

Apr, 2020

使用大型语言模型评估摘要的事实一致性

本研究探索采用大型语言模型 (DLM) 来评估摘要的事实一致性，并通过对 GPT 模型系列和 Flan-T5 等不同类型的 DLM 进行分析，以及对多种提示方法进行研究，最终证明了直接针对 DLM 的提示方法在各项测试中均优于当前最先进的摘要事实性系统。

May, 2023

mFACE: 多语言事实一致性评估自动摘要

本文探讨了利用基于事实一致性评估模型的数据过滤和控制生成两种方法来改善跨语言自动摘要的结果，针对语义幻觉生成的问题在提高多语言自动摘要性能方面取得了较好的结果。

Dec, 2022

基于熵指导的外推解码方法提升大型语言模型中的事实准确性

大型语言模型 (LLMs) 具备令人印象深刻的自然语言处理能力，但存在虚构结果的问题。最近的研究关注于解码技术，通过利用 LLMs 的分层表示技术及在推理过程中操纵预测分布，提高真实性。本文通过超出最后一层的关键标记概率外推和基于层次熵的下层选择，解耦选择过程与最后一层之间的关系，实验结果显示非常好的性能，并在多个数据集上大幅领先，分析结果表明不同类型的提示需要不同的选择策略。

Apr, 2024

大型语言模型生成的通用自一致性

利用大型语言模型采样的多个推理路径，结合自我一致性和链式思维提示，在各种具有挑战性的任务上取得了显著的性能提升。本研究提出了一种通用的自我一致性方法（USC），它利用语言模型自身从多个候选答案中选择最一致的答案。我们在包括数学推理、代码生成、长篇摘要和开放式问答在内的多个数据集上评估了 USC 的性能。在原来的自我一致性方法不适用的开放式生成任务中，USC 有效利用多个样本并提高了性能。对于数学推理，USC 在不要求答案格式相似的情况下，达到了标准自我一致性的性能。最后，在无法访问执行结果的情况下，USC 也达到了代码生成中基于执行的投票性能。

Nov, 2023