探究文本熵速率不变性

May, 2023

Revisiting Entropy Rate Constancy in Text

Vivek Verma, Nicholas Tomlin, Dan Klein

TL;DR通过神经语言模型重新评估 Genzel 和 Charniak 在信息熵速率恒定性原则方面的主张，未能发现明确支持熵速率恒定性的证据，对一致信息密度假设和有效交流的语言学理论的影响进行了实验研究。

Abstract

The uniform information density (UID) hypothesis states that humans tend to distribute information roughly evenly across an utterance or discourse. Early evidence in support of the UID hypothesis came from Genzel & Charniak (2002), which proposed an →

uniform information density entropy rate constancy neural language models efficient communication linguistic theories

发现论文，激发创造

重新审视一致信息密度假设

本文研究了统一信息密度假说对于语言理解和语言可接受性的影响，使用阅读时间和可接受性数据，发现信息密度的不均匀性会降低可接受性，而统一信息密度假说可以部分解释语言压缩的趋势。

Sep, 2021

一种用于语言建模的认知正则化器

使用正则化编码的 UID 假设可以作为一种归纳偏差，用于训练语言模型，这在十种涵盖了五种语言家族的语言模型实验中体现出来，使用 UID 正则化一致地提高了语言模型的困惑度，特别是在数据量有限的情况下。此外，我们发现，UID 正则化的语言模型生成的文本具有更多的词汇多样性。

May, 2021

跨语言压力使单词顺序具有统一的信息密度

通过计算模型研究发现，信息均匀性可能对自然语言的发展和使用产生压力，并且现实语序通常比假设语序具有更大的信息均匀性。

Jun, 2023

对话响应中的解码算法如何分配信息？

研究人类在对话中遵循 Uniform Information Density 原则的情况下，使用 GPT-2 在 Persona-Chat 数据集上生成响应，发现解码算法促进 Uniform Information Density 并不会生成更高质量的响应，相反，鼓励非一致性响应则是解决质量退化问题的潜在解决方案。

Mar, 2023

以 UID 作为自动作者混淆的指标

在这篇论文中，我们通过利用统一信息密度（UID）理论，设计了三种小说的作者模糊化方法，并通过对 50 篇人工文章和 50 篇 GPT-3 生成文章进行模糊化，观察了每种方法对误导作者识别器的效果，虽然在语义保留和意义变化方面模糊化的质量较高，但我们无法找到任何证据表明 UID 是一种可行的模糊化指标。然而，由于时限限制，我们无法测试足够多的文章样本或调整我们的作者识别器参数，以对 UID 在模糊化中作出最后结论。

Nov, 2023

GPT-who: 一种基于信息密度的机器生成文本检测器

通过 UID 原则构建了 GPT-who 检测器，它利用 UID 特征对每个大型语言模型和人类作者的统计签名进行建模，以实现准确的作者归属。GPT-who 在四个大规模基准数据集上表现优于现有的检测器，并能够区分由非常复杂的大型语言模型生成的文本，即使上层文本无法辨别。

Oct, 2023

稳定熵假设和熵感知解码：鲁棒自然语言生成的分析与算法

本论文提出，当语言生成模型用于文本完成，故事生成或对话建模等开放性文本生成问题时，最先进的语言生成模型可能会退化。我们发现近似平坦熵带内的生成更为 “人类化”，而模型违反熵的这些限制通常会导致退化。因此，我们提出了一种基于熵的解码算法，以生成更具语境感和 “人类化” 的文本。

Feb, 2023

语言生成中概率 - 质量悖论

论文分析了自然语言生成过程，并通过信息理论解释了高概率和高质量并不总是一致的现象，得出语言生成应包含接近自然字符串分布熵的负对数概率数目，初步实证结果表明高质量的文本具有信息量与自然字符串分布熵更接近的特点。

Mar, 2022

那是可选的：对英语从属从句中 “that” 省略的现代探索

本文研究了信息密度均匀性原则对句法简化的影响，特别关注英语从属从句中连接词 “that” 的可选省略。借鉴以往研究，我们扩大了研究范围，利用现代大型语言模型和熵的概念来估计句法简化选择中信息均匀性原则的体现。

May, 2024

文学语料库中的统计关键词检测

本文通过统计文本中单词的空间使用情况，利用信息熵作为工具实现自动关键词提取，并以达尔文的《物种起源》为代表性文本样本进行性能测试和比较。

Jan, 2007