通过自适应解码改善开放式文本生成

Feb, 2024

通过自适应解码改善开放式文本生成

Improving Open-Ended Text Generation via Adaptive Decoding

Wenhong Zhu, Hongkun Hao, Zhiwei He, Yiming Ai, Rui Wang

TL;DR当前语言模型以概率分布逐词解码文本，本研究引入了自适应解码机制，使语言模型能够在生成过程中动态地确定合理的候选集。实验结果显示我们的方法在故事生成任务中实现了更高的 MAUVE 和多样性，同时保持了一定的连贯性，凸现了其优越性。

Abstract

Current language models decode text token by token according to probabilistic distribution, and determining the appropriate candidates for the next token is crucial to ensure generation quality. This study introduces ad

language models adaptive decoding candidate set entropy-based metric story generation tasks

发现论文，激发创造

多候选猜测解码

大型语言模型在各种自然语言处理任务中展现出令人印象深刻的能力，但是自回归生成文本却非常耗时。提高速度的一个方法是进行猜测性解码，即由快速的草稿模型生成候选分段（一系列令牌），然后由目标模型并行验证。然而，候选标记的接受率受到模型、数据集和解码设置等多个因素的限制。本文提出了从草稿模型中采样多个候选分段，并将它们分批进行验证的方法。我们设计了高效的多候选验证算法，同时保持目标模型的分布。我们的方法在多个数据集和模型上都展现出显著的接受率改进，始终优于标准的猜测性解码。

Jan, 2024

动量解码：以图探索为基础的开放式文本生成

本文提出一种新的解码方法 —— 动量解码，将生成开放式文本视为有向图中的探索过程，同时鼓励语言模型在当前图之外贪心地探索新节点，并允许其通过预定义的抵抗函数降低动量回到现有节点，本方法在三个基准测试中表现出与现有技术相当的性能，且具有明显提高的推理速度和计算 FLOPs。

Dec, 2022

自然语言生成中的多样性与质量的权衡

将解码算法视为多目标优化问题，旨在同时最大化回应质量和多样性。当多样性是一个优先考虑的因素时，所有方法表现相似，但当质量被视为更重要时，近期提出的核采样 (nucleus sampling) 优于所有其他评估的解码算法。在这一发现的基础上，我们设计并评估了一种名为 “选择性抽样” 的算法，该算法可以近似全局归一化温度抽样。

Apr, 2020

条件语言模型的不同解码方法比较

调查许多分歧解码策略，在不损失质量的前提下通过过量抽样生成候选序列，并在筛选后从候选列表中生成多样化的结果。

Jun, 2019

语言模型解码作为直接度量优化

通过在语言模型中引入优化问题的框架，我们提出了一种新的解码分布，该分布通过序列级能量函数定义多个度量标准来改善与人类文本的语义一致性，实验证明我们的方法在与人类文本的度量标准一致性和人类评估方面优于强基准模型。

Oct, 2023

对比解码：作为优化的开放式文本生成

本文提出一种基于对比解码的生成算法，将大型语言模型与小型语言模型相比较，找出高质量的文本生成结果，并在自动和人工评估中优于四种强大的解码算法。

Oct, 2022

自信的自适应语言建模

使用 Confident Adaptive Language Modeling（CALM）动态分配不同量的计算资源，早期退出解码以减少计算，从而在维持高性能的同时最多可提速三倍，理论分析和实验表明其在减少计算方面的有效性。

Jul, 2022

通过动态温度采样来改善代码生成

通过分析代码标记的丢失分布，我们发现代码标记可以分为两类：难以预测的具有挑战性的标记和容易推测的自信标记。基于以上发现，我们提出了一种简单而有效的方法：自适应温度采样（AdapT sampling），通过在解码不同的标记时动态调整温度系数。我们将难以预测的标记采样时应用较高的温度，从而使 LLMs 能够探索多样的选择。我们在不同规模的 LLMs 上应用 AdapT 采样，并在两个常用数据集上进行评估，结果表明 AdapT 采样明显优于最先进的解码策略。

Sep, 2023

通过期望值计算改进生成式语言模型的阅读理解能力中未使用信息的词汇概率分布

LLM 文本解码是感知 LLM 质量的关键组成部分。我们展示了两个实验，证明通过操纵记号概率可以改进解码方法。首先，我们在 SummEval 摘要评分数据集上测试了几个 LLM，以衡量阅读理解能力。我们将得分与下一个记号分布的预期值进行比较，通过放大温度来缩放 logits 以增加得分的熵。这使得在 SummEval 上性能得到了显著提高（通过与人类判断的相关性来衡量）。对于 7B Mistral，我们从 6-8% 提高到 13-28%，对于 Mixtral，我们从 20%-46% 提高到 37%-56%，超过了 GPT 4 0314 在两个度量指标上的结果。提升的一部分似乎与位置偏置相关。其次，我们使用基于概率的树采样算法来检查给定提示的所有最可能生成的结果。

Jun, 2024

基于熵指导的外推解码方法提升大型语言模型中的事实准确性

大型语言模型 (LLMs) 具备令人印象深刻的自然语言处理能力，但存在虚构结果的问题。最近的研究关注于解码技术，通过利用 LLMs 的分层表示技术及在推理过程中操纵预测分布，提高真实性。本文通过超出最后一层的关键标记概率外推和基于层次熵的下层选择，解耦选择过程与最后一层之间的关系，实验结果显示非常好的性能，并在多个数据集上大幅领先，分析结果表明不同类型的提示需要不同的选择策略。

Apr, 2024