更准确的开放式回答的自洽解码
本文介绍了一个新的方法,通过扩展自一致性的应用范围并使用轻量级无参数相似函数,改善了大规模预训练语言模型生成的质量和一致性,包括代码生成、自动格式化和文本摘要任务。
Jul, 2023
将解码算法视为多目标优化问题,旨在同时最大化回应质量和多样性。当多样性是一个优先考虑的因素时,所有方法表现相似,但当质量被视为更重要时,近期提出的核采样 (nucleus sampling) 优于所有其他评估的解码算法。在这一发现的基础上,我们设计并评估了一种名为 “选择性抽样” 的算法,该算法可以近似全局归一化温度抽样。
Apr, 2020
本文中,我们对自然语言生成功能的输出质量提出问题,通过收集人类演示和信息反馈数据集 DeFacto,我们进行了两项自然语言生成任务的研究,旨在通过实现信息反馈来提高自然语言生成模型的质量,改善与用户需求的匹配度。
Dec, 2022
大语言模型(LLMs)的生成可以通过对多个解决方案进行采样和评分来提高。目前的 “采样和选择” 方法依靠多数投票来评分答案,但是在任务具有许多不同且有效的答案时,通过投票选择需要大量的样本,这使得对于涉及顺序生成多个操作(答案)的交互式任务来说,SC 的代价过高。我们展示了如何通过软化评分准则来提高成功率,并引入了软自一致性(Soft-SC),用模型可能性计算连续得分来代替 SC 的不连续评分,使其能够在操作稀疏分布时进行选择。Soft-SC 在长时间跨度的交互任务上提高了性能和效率,相比于 SC,所需样本仅一半或更少,并在编写 bash 程序时的绝对成功率上比 SC 提高了 1.3%,在在线购物(WebShop)上提高了 6.6%,在交互式家庭游戏(ALFWorld)上提高了 4.7%。最后,我们证明了 Soft-SC 可以应用于开源和黑盒模型。
Feb, 2024
本研究探索采用大型语言模型 (DLM) 来评估摘要的事实一致性,并通过对 GPT 模型系列和 Flan-T5 等不同类型的 DLM 进行分析,以及对多种提示方法进行研究,最终证明了直接针对 DLM 的提示方法在各项测试中均优于当前最先进的摘要事实性系统。
May, 2023
本文探讨了利用基于事实一致性评估模型的数据过滤和控制生成两种方法来改善跨语言自动摘要的结果,针对语义幻觉生成的问题在提高多语言自动摘要性能方面取得了较好的结果。
Dec, 2022
大型语言模型 (LLMs) 具备令人印象深刻的自然语言处理能力,但存在虚构结果的问题。最近的研究关注于解码技术,通过利用 LLMs 的分层表示技术及在推理过程中操纵预测分布,提高真实性。本文通过超出最后一层的关键标记概率外推和基于层次熵的下层选择,解耦选择过程与最后一层之间的关系,实验结果显示非常好的性能,并在多个数据集上大幅领先,分析结果表明不同类型的提示需要不同的选择策略。
Apr, 2024
利用大型语言模型采样的多个推理路径,结合自我一致性和链式思维提示,在各种具有挑战性的任务上取得了显著的性能提升。本研究提出了一种通用的自我一致性方法(USC),它利用语言模型自身从多个候选答案中选择最一致的答案。我们在包括数学推理、代码生成、长篇摘要和开放式问答在内的多个数据集上评估了 USC 的性能。在原来的自我一致性方法不适用的开放式生成任务中,USC 有效利用多个样本并提高了性能。对于数学推理,USC 在不要求答案格式相似的情况下,达到了标准自我一致性的性能。最后,在无法访问执行结果的情况下,USC 也达到了代码生成中基于执行的投票性能。
Nov, 2023