估计语言分布的熵

ACLApr, 2022

Estimating the Entropy of Linguistic Distributions

Aryaman Arora, Clara Meister, Ryan Cotterell

TL;DR本文研究了 Shannon 熵在语言学任务中的应用，重点关注从可观察的语言数据中估算熵的效果，并通过两个信息论语言学研究的复制实验发现，由于过度依赖不良熵估算器，报告的效应大小被高估了。最后我们提出了针对不同类型分布和数据可用性的熵估算建议。

Abstract

shannon entropy is often a quantity of interest to linguists studying the communicative capacity of human language. However, entropy must typically be estimated from observed data because researchers do not have access to the underlying probability distribution that gives rise to these

shannon entropy entropy estimators linguistic data information-theoretic linguistic studies data availability

发现论文，激发创造

私人和通信高效的熵估计算法

本文提供了针对现代统计估计的改进的隐私保护算法和通信效率算法，包括用于估计分布熵的算法和用于通信效率估计基尼熵的算法，并基于现有最佳算法推广了一种用于碰撞熵估计的算法，满足局部差分隐私。

May, 2023

文学语料库中的统计关键词检测

本文通过统计文本中单词的空间使用情况，利用信息熵作为工具实现自动关键词提取，并以达尔文的《物种起源》为代表性文本样本进行性能测试和比较。

Jan, 2007

魔术师：基于样本的最大熵源分布估计

我们提出了一种用于推断科学模拟器参数的唯一源分布的方法，并尽可能保留更多的不确定性。

Feb, 2024

不充分抽样的熵估计

本论文详细介绍了针对离散分布的 Shannon 熵估计器的一些估计方法，适用于 N 个样本点分布到 M 个箱中，其中 N 和 M -> oo，但 N/M < oo，高采样区域（每个箱子 <<1 个点）具有指数级小的偏差，低采样区域的误差增加，但仍远小于大多数其他估计器。其中一个优势是我们的主要估计器通过解析方法得到，偏差有明确已知的解析公式。

Jul, 2003

自适应熵估计

本研究针对离散分布 P 进行 n 个独立同分布样本的香农熵估计，使用逼近理论法进行估计，实现了在估计熵的最小二乘率方面的极致。通过采用自适应估计框架，该方法相对极小值优化估计方法在分布 P 的嵌套子序列上实现了最小二乘率的估计，从而进一步证明了估计在样本 n 的情况下是最优的，并且基本上相当于 MLE 使用 nlnn 个样本进行估计。

Feb, 2015

语义不确定性：自然语言生成中不确定性估计的语言不变性

本文提出了一种测量大型语言模型中不确定性的方法，介绍了语义熵的概念，并且证明该方法在问答任务上的准确性优于基线模型。

Feb, 2023

从有限样本中估计概率分布的函数，第一部分：贝叶斯估计量和香农熵

本文介绍了在数据是从离散概率分布抽取的有限样本时，对熵和其他函数的估计器，尤其是当概率分布为联合分布时，我们提出了对该概率分布的互信息、协方差和卡方函数的有限样本估计器。

Mar, 1994

大状态空间马尔可夫链的熵率估计

本文研究了从一个马尔可夫链的样本路径进行熵速率估计的问题，证明了在一定的条件下，如马尔可夫链混合得不太慢，则可以实现一致的估计。作者使用提出的估计器在英语数据集上进行了实验并与其他方法进行了比较，结果表明该估计器能够有效地解决估计问题。

Feb, 2018

人类语言的假观念：为何统计学需要语言学

研究语言处理的统计表面分布和基于句法信息的离散分层结构之间的紧张关系，揭示了只有反映句法结构的 surprisal 模型能够解释语言的规律性。

Feb, 2023

评估神经语言模型中的分布扭曲

我们发现，LSTM 和 Transformer 语言模型系统地低估了来自目标语言的序列的概率，并且对于不太可能出现的序列更为严重，尽管使用更多的训练数据减轻了这种倾向，但这种低估行为还是存在，并且在目标分布熵较低时加剧了这种情况，并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。

Mar, 2022