稳定熵假设和熵感知解码：鲁棒自然语言生成的分析与算法

Feb, 2023

稳定熵假设和熵感知解码：鲁棒自然语言生成的分析与算法

The Stable Entropy Hypothesis and Entropy-Aware Decoding: An Analysis and Algorithm for Robust Natural Language Generation

PDF

Kushal Arora, Timothy J. O'Donnell, Doina Precup, Jason Weston, Jackie C.K.Cheung

TL;DR本论文提出，当语言生成模型用于文本完成，故事生成或对话建模等开放性文本生成问题时，最先进的语言生成模型可能会退化。我们发现近似平坦熵带内的生成更为 “人类化”，而模型违反熵的这些限制通常会导致退化。因此，我们提出了一种基于熵的解码算法，以生成更具语境感和 “人类化” 的文本。

Abstract

State-of-the-art language generation models can degenerate when applied to open-ended generation problems such as text completion, story generati

language generation entropy text completion story generation dialog modeling

发现论文，激发创造

语言生成中概率 - 质量悖论

论文分析了自然语言生成过程，并通过信息理论解释了高概率和高质量并不总是一致的现象，得出语言生成应包含接近自然字符串分布熵的负对数概率数目，初步实证结果表明高质量的文本具有信息量与自然字符串分布熵更接近的特点。

Mar, 2022

神经文本退化的好奇案例

本研究发现人类文本和机器生成文本的分布存在差异，在相同的神经语言模型下使用不同的解码策略可以显著影响文本质量，提出了一种基于动态核心采样的方法来提高生成文本的多样性和流畅性。

Apr, 2019

基于熵的检索增强大语言模型的解码

通过熵考虑引导的新型训练免耦合解码方法，提高了检索辅助的大型语言模型在从上下文中提取相关信息时的可靠性，解决了噪音干扰问题。与模型内部知识的高熵分布相对比，对检索得到的低熵集成分布进行对比解码，确保更多重视可靠的外部信息，实验证明了该方法的卓越性能。

Jun, 2024

自然语言生成中的多样性与质量的权衡

将解码算法视为多目标优化问题，旨在同时最大化回应质量和多样性。当多样性是一个优先考虑的因素时，所有方法表现相似，但当质量被视为更重要时，近期提出的核采样 (nucleus sampling) 优于所有其他评估的解码算法。在这一发现的基础上，我们设计并评估了一种名为 “选择性抽样” 的算法，该算法可以近似全局归一化温度抽样。

Apr, 2020

一种插拔式控制文本生成方法

通过向语料库单词的概率分布添加位移来控制语言生成，能保证给定的关键词出现，相比类似方法具有更高的效果。

Sep, 2021

通过自适应解码改善开放式文本生成

当前语言模型以概率分布逐词解码文本，本研究引入了自适应解码机制，使语言模型能够在生成过程中动态地确定合理的候选集。实验结果显示我们的方法在故事生成任务中实现了更高的 MAUVE 和多样性，同时保持了一定的连贯性，凸现了其优越性。

Feb, 2024

语义不确定性：自然语言生成中不确定性估计的语言不变性

本文提出了一种测量大型语言模型中不确定性的方法，介绍了语义熵的概念，并且证明该方法在问答任务上的准确性优于基线模型。

Feb, 2023

基于熵指导的外推解码方法提升大型语言模型中的事实准确性

大型语言模型 (LLMs) 具备令人印象深刻的自然语言处理能力，但存在虚构结果的问题。最近的研究关注于解码技术，通过利用 LLMs 的分层表示技术及在推理过程中操纵预测分布，提高真实性。本文通过超出最后一层的关键标记概率外推和基于层次熵的下层选择，解耦选择过程与最后一层之间的关系，实验结果显示非常好的性能，并在多个数据集上大幅领先，分析结果表明不同类型的提示需要不同的选择策略。

Apr, 2024

动量解码：以图探索为基础的开放式文本生成

本文提出一种新的解码方法 —— 动量解码，将生成开放式文本视为有向图中的探索过程，同时鼓励语言模型在当前图之外贪心地探索新节点，并允许其通过预定义的抵抗函数降低动量回到现有节点，本方法在三个基准测试中表现出与现有技术相当的性能，且具有明显提高的推理速度和计算 FLOPs。

Dec, 2022

通过不确定性理解神经网络抽象摘要模型

通过对两个已预训练模型 PEGASUS 和 BART 进行分析，本文探讨了在两个文本摘要数据集上，token-level 预测的不确定性与模型规律的关系，发现模型在复制标记而非生成新文本的情况下，预测熵值较小；同时，不确定性与句子位置、相邻标记之间的语法距离等因素有关，并阐述了注意力机制对模型效果的影响。

Oct, 2020