对话响应中的解码算法如何分配信息？

Mar, 2023

对话响应中的解码算法如何分配信息？

How do decoding algorithms distribute information in dialogue responses?

Saranya Venkatraman, He He, David Reitter

TL;DR研究人类在对话中遵循 Uniform Information Density 原则的情况下，使用 GPT-2 在 Persona-Chat 数据集上生成响应，发现解码算法促进 Uniform Information Density 并不会生成更高质量的响应，相反，鼓励非一致性响应则是解决质量退化问题的潜在解决方案。

Abstract

Humans tend to follow the uniform information density (UID) principle by distributing information evenly in utterances. We study if decoding algorithms implicitly follow this →

uniform information density decoding algorithms uid principle dialogue generation persona-chat dataset

发现论文，激发创造

重新审视一致信息密度假设

本文研究了统一信息密度假说对于语言理解和语言可接受性的影响，使用阅读时间和可接受性数据，发现信息密度的不均匀性会降低可接受性，而统一信息密度假说可以部分解释语言压缩的趋势。

Sep, 2021

GPT-who: 一种基于信息密度的机器生成文本检测器

通过 UID 原则构建了 GPT-who 检测器，它利用 UID 特征对每个大型语言模型和人类作者的统计签名进行建模，以实现准确的作者归属。GPT-who 在四个大规模基准数据集上表现优于现有的检测器，并能够区分由非常复杂的大型语言模型生成的文本，即使上层文本无法辨别。

Oct, 2023

探究文本熵速率不变性

通过神经语言模型重新评估 Genzel 和 Charniak 在信息熵速率恒定性原则方面的主张，未能发现明确支持熵速率恒定性的证据，对一致信息密度假设和有效交流的语言学理论的影响进行了实验研究。

May, 2023

一种用于语言建模的认知正则化器

使用正则化编码的 UID 假设可以作为一种归纳偏差，用于训练语言模型，这在十种涵盖了五种语言家族的语言模型实验中体现出来，使用 UID 正则化一致地提高了语言模型的困惑度，特别是在数据量有限的情况下。此外，我们发现，UID 正则化的语言模型生成的文本具有更多的词汇多样性。

May, 2021

以 UID 作为自动作者混淆的指标

在这篇论文中，我们通过利用统一信息密度（UID）理论，设计了三种小说的作者模糊化方法，并通过对 50 篇人工文章和 50 篇 GPT-3 生成文章进行模糊化，观察了每种方法对误导作者识别器的效果，虽然在语义保留和意义变化方面模糊化的质量较高，但我们无法找到任何证据表明 UID 是一种可行的模糊化指标。然而，由于时限限制，我们无法测试足够多的文章样本或调整我们的作者识别器参数，以对 UID 在模糊化中作出最后结论。

Nov, 2023

自然语言生成中的多样性与质量的权衡

将解码算法视为多目标优化问题，旨在同时最大化回应质量和多样性。当多样性是一个优先考虑的因素时，所有方法表现相似，但当质量被视为更重要时，近期提出的核采样 (nucleus sampling) 优于所有其他评估的解码算法。在这一发现的基础上，我们设计并评估了一种名为 “选择性抽样” 的算法，该算法可以近似全局归一化温度抽样。

Apr, 2020

跨语言压力使单词顺序具有统一的信息密度

通过计算模型研究发现，信息均匀性可能对自然语言的发展和使用产生压力，并且现实语序通常比假设语序具有更大的信息均匀性。

Jun, 2023

信息过滤于多样性改进解码中用于自然语言生成中的多样性 - 忠实度平衡

本文提出了一种名为 IFDID 的信息过滤方法，通过在两个阶段增加一些典型词汇的选择概率并通过信息量过滤它们，实现多样性和忠实度之间的平衡，相较于传统方法，IFDID 在 ROUGE 得分方面提高了 1.24 分，表示其在多样性及忠实度之间的平衡方面具有创新性。

Oct, 2022

神经响应生成模型为什么更倾向于使用通用回复？

该研究分析了基于序列到序列学习的生成回复任务的神经模型容易产生短而通用回复的问题，并通过分解黑匣子，详细分析了概率极限问题并提出了最大间隔排名正则化方法来避免模型偏向于这些回复，并通过实证实验验证了该方法的有效性。

Aug, 2018

文本生成的统一复杂度

本文介绍了 Uniform Complexity for Text Generation (UCTG)，它是一项挑战，旨在使现有模型生成与输入语句或提示相对应的均匀复杂度的文本。在受控叙述生成任务中，我们发现 GPT-2 模型甚至人类在保持输入提示的语言复杂度方面遇到了困难。最终，我们提出了可能的方法和方法，可纳入指导语言模型处理此重要挑战的一般框架中。

Apr, 2022