惩罚解码：有效抑制开放式文本生成中的自我强化效应

EMNLPOct, 2023

惩罚解码：有效抑制开放式文本生成中的自我强化效应

Penalty Decoding: Well Suppress the Self-Reinforcement Effect in Open-Ended Text Generation

Wenhong Zhu, Hongkun Hao, Rui Wang

TL;DR本研究探讨了生成开放性文本的解码算法、自我强化效应以及消减其影响的重复惩罚的有效性。我们提出了一种遗忘机制，通过忽略远距离的令牌减轻惩罚选择的负担。此外，我们引入了长度惩罚以解决过度惩罚导致的过短句子问题。我们的惩罚解码方法结合了三种策略，有助于解决采样方法与事实信息偏离的问题。实验结果表明，我们的方法在生成类似人类输出的高质量句子方面具有有效性。

Abstract

The decoding algorithm is critical for open-ended text generation, transforming latent representations into coherent and meaningful outputs. This paper investigates the self-reinforcement effect in text generatio

decoding algorithm self-reinforcement effect repetition penalty forgetting mechanism length penalty

发现论文，激发创造

通过自对比训练缓解开放性生成中对重复的学习偏差

本文提出了一种自对比训练方法，以惩罚同一模型的早期检查点在错误预测重复时的输出，并在保持流畅性的同时有效地减轻了重复的问题，同时研究发现语言模型在预测重复令牌时使用更长的范围依赖性，可能导致句子级重复循环。

Jul, 2023

对话生成中的重复抑制

本文研究基于上下文感知分类器的对话生成方法，通过对重复性的控制，提高了人工生成文本的质量和真实性。

Dec, 2021

隐式不可能性训练：利用强化学习提升神经文本生成

本文提出在语言模型中使用策略梯度强化学习进行微调，以直接优化更好的文本生成，将这种方法应用于最小化生成文本中的重复，并展示了当与 unlikelihood training 相结合时，我们的方法进一步减少了重复而未影响语言模型质量。此外，我们还评估了其他方法来改进训练和解码时间，并使用各种度量标准来比较它们，以达到更好的文本生成输出的控制。

Jan, 2021

更准确的开放式回答的自洽解码

通过将多个样本与先前的选择相结合，基于简单的令牌重叠评分，我们将 “Sample & Select” 方法与其他几种解码算法进行比较，证明其在基于 NLI 的 CNN/DM 和 XSum 子集的 FRANK 基准测试中，相对于其他解码算法（DoLA、P-CRR 和 S-CRR）提高了 30% 的事实性，而对参考摘要维持可比的 ROUGE-1 F1 得分，并通过对生成摘要的人工验证进一步证实了我们方法的事实优越性。

Mar, 2024

学习打破循环：分析和减少神经文本生成中的重复

通过量化实验研究，我们发现神经语言模型生成文本中会存在连续重复句子的现象，并提出了针对该现象的训练方法 DITTO，该方法不仅可以缓解生成中的重复问题，同时还能提高生成质量。

Jun, 2022

开放式文本生成的回溯解码

本文提出了一种改进的解码算法 Look-back，利用 Kullback-Leibler 散度来跟踪当前和历史解码步骤之间的分布距离，能够自动预测潜在的重复短语和主题漂移，并移除可能导致故障的标记，从而生成更流畅和连贯的文本，并在文档连续性和故事生成上取得了优异性能。

May, 2023

动量解码：以图探索为基础的开放式文本生成

本文提出一种新的解码方法 —— 动量解码，将生成开放式文本视为有向图中的探索过程，同时鼓励语言模型在当前图之外贪心地探索新节点，并允许其通过预定义的抵抗函数降低动量回到现有节点，本方法在三个基准测试中表现出与现有技术相当的性能，且具有明显提高的推理速度和计算 FLOPs。

Dec, 2022

通过自适应解码改善开放式文本生成

当前语言模型以概率分布逐词解码文本，本研究引入了自适应解码机制，使语言模型能够在生成过程中动态地确定合理的候选集。实验结果显示我们的方法在故事生成任务中实现了更高的 MAUVE 和多样性，同时保持了一定的连贯性，凸现了其优越性。

Feb, 2024

基于内容词的句子解码与评估在开放域神经响应生成中的应用

研究了基于编码器 - 解码器模型的开放领域对话系统的自动回复方法，并提出一种将内容单词序列作为中间表示的方法，并通过将学习和评估的重点从完整句子转移到内容单词序列，提高了生成语句相关性的方法。

May, 2019

语言模型解码作为直接度量优化

通过在语言模型中引入优化问题的框架，我们提出了一种新的解码分布，该分布通过序列级能量函数定义多个度量标准来改善与人类文本的语义一致性，实验证明我们的方法在与人类文本的度量标准一致性和人类评估方面优于强基准模型。

Oct, 2023