探究文本熵速率不变性
本文研究了统一信息密度假说对于语言理解和语言可接受性的影响,使用阅读时间和可接受性数据,发现信息密度的不均匀性会降低可接受性,而统一信息密度假说可以部分解释语言压缩的趋势。
Sep, 2021
使用正则化编码的 UID 假设可以作为一种归纳偏差,用于训练语言模型,这在十种涵盖了五种语言家族的语言模型实验中体现出来,使用 UID 正则化一致地提高了语言模型的困惑度,特别是在数据量有限的情况下。此外,我们发现,UID 正则化的语言模型生成的文本具有更多的词汇多样性。
May, 2021
研究人类在对话中遵循 Uniform Information Density 原则的情况下,使用 GPT-2 在 Persona-Chat 数据集上生成响应,发现解码算法促进 Uniform Information Density 并不会生成更高质量的响应,相反,鼓励非一致性响应则是解决质量退化问题的潜在解决方案。
Mar, 2023
在这篇论文中,我们通过利用统一信息密度(UID)理论,设计了三种小说的作者模糊化方法,并通过对 50 篇人工文章和 50 篇 GPT-3 生成文章进行模糊化,观察了每种方法对误导作者识别器的效果,虽然在语义保留和意义变化方面模糊化的质量较高,但我们无法找到任何证据表明 UID 是一种可行的模糊化指标。然而,由于时限限制,我们无法测试足够多的文章样本或调整我们的作者识别器参数,以对 UID 在模糊化中作出最后结论。
Nov, 2023
通过 UID 原则构建了 GPT-who 检测器,它利用 UID 特征对每个大型语言模型和人类作者的统计签名进行建模,以实现准确的作者归属。GPT-who 在四个大规模基准数据集上表现优于现有的检测器,并能够区分由非常复杂的大型语言模型生成的文本,即使上层文本无法辨别。
Oct, 2023
本论文提出,当语言生成模型用于文本完成,故事生成或对话建模等开放性文本生成问题时,最先进的语言生成模型可能会退化。我们发现近似平坦熵带内的生成更为 “人类化”,而模型违反熵的这些限制通常会导致退化。因此,我们提出了一种基于熵的解码算法,以生成更具语境感和 “人类化” 的文本。
Feb, 2023
论文分析了自然语言生成过程,并通过信息理论解释了高概率和高质量并不总是一致的现象,得出语言生成应包含接近自然字符串分布熵的负对数概率数目,初步实证结果表明高质量的文本具有信息量与自然字符串分布熵更接近的特点。
Mar, 2022
本文研究了信息密度均匀性原则对句法简化的影响,特别关注英语从属从句中连接词 “that” 的可选省略。借鉴以往研究,我们扩大了研究范围,利用现代大型语言模型和熵的概念来估计句法简化选择中信息均匀性原则的体现。
May, 2024