利用费舍尔精确检验对 n-grams 关联度量进行评估

MMApr, 2021

利用费舍尔精确检验对 n-grams 关联度量进行评估

Using Fisher's Exact Test to Evaluate Association Measures for N-grams

Yves Bestgen

TL;DR使用 Fisher 精确检验的扩展来分析四百万词汇的语料库，发现 MI3 是最有效的测量方法之一，能够实现与 simple-ll 更接近的性能水平，尤其是对于三个单词的短语。此外，还观察到对于三元组，某些测量方法比二元组更有效，而其他测量方法则停滞不前。

Abstract

To determine whether some often-used lexical association measures assign high scores to n-grams that chance could have produced as frequently as observed, we used an extension of →

lexical association measures fisher's exact test precision-recall curve mi3 n-grams

发现论文，激发创造

追求精准的渔猎

本文研究了使用统计方法自动识别依赖词组（即依赖二元组）的问题，发现 Fisher 准确性更高，常用的渐近检验方法如 t 检验、Pearson's 卡方检验和 likelihood-ratio 卡方检验与之相比不如效果好；并且 Fisher 的实用性扩展至自然语言处理中的其它问题，因为所涉及数据通常都是偏斜和稀疏的。

Aug, 1996

蒙特卡罗研究的评估

通过理论分析和 Monte Carlo 模拟，对传统评估方法中存在的偏见进行了讨论，提出了一些不受偏见影响的替代评估方法，如 Cohen Kappa，并进行了实证评估。

Apr, 2015

基于相似性的词共现概率估计

本文提出了一种基于分布式相似性的概率词汇联想模型，用于估算先前未见过的词组的概率，并在语音识别中获得了显着的错误率降低和复杂性改进。

May, 1994

基于相似度的单词共现概率模型

本论文提出了一种基于分布式词语相似性的概率性词汇关联模型方法，旨在提高不常见单词组合的概率估计和降低语音识别错误率。模型在语言建模和伪单词消歧任务上发挥良好，且比传统的最大似然估计和后退估计方法表现更好。

Sep, 1998

更准确的结果差异统计学显著性检验

该研究探讨了在自然语言处理实证研究中，常用统计方法在独立性假设违反情况下，低估了统计差异的问题，并提出了一些不需要独立性假设的有效测试方法。

Aug, 2000

基于相似度的词义消歧方法

本文比较四种基于相似性的估计方法和回退及最大似然估计方法在伪词义消歧任务中的表现，结果表明基于相似性的方法在该特定任务中表现更好，同时得出只在训练集中出现一次的事件对基于相似性的估计方法有重大影响的结论。

Aug, 1997

一种基于似然比检验的语言间遗传关系检测方法

语言间的词汇相似性表明它们可能存在遗传关系，然而这些相似性也可能是偶然的，并不总是意味着潜在的遗传关系。本文提出了一种似然比检验的方法来确定语言之间的关系，并评估了一些语系，证明了该检验的可行性和支持了宏观语系的存在。

Mar, 2024

使用排列检验进行关键性评估

提出了一种基于重采样的方法，用于评估语料库中的关键性问题，通过建议 Gries（2006, 2022）来实现。该方法替代了单词逐个采样模型，而采用了更接近语料库实际组装方式的文档样本模型，并使用排列方法获得给定关键性得分在等频假设下的分布并得到 p 值。

Aug, 2023

评价：从精度、召回率和 F - 度量到 ROC、知情度、标记度和相关性

本研究讨论了常见的评估措施，指出它们存在偏差，需要清楚理解偏差并识别其机会或基线水平，提出了反映预测是否知情的概率的若干概念和测量方法，引入了 Markedness 作为一种相对应的概率的二元测度，展示了 Informedness，Markedness，相关性和重要性的优雅联系，以及它们与召回率和准确率之间的直观关系，并概述了从二分类情况扩展到一般的多类情况。

Oct, 2020

对 Reshef Et Al 的《Science Dec 16, 2011》论文 “在大型数据集中检测新的关联性” 的评论

研究比较了 MIC 与 Pearson 相关系数和距离相关系数在不同情况下的功率表现，发现 MIC 在大多数情况下的功率都比 dcro 低，甚至有时候比 Pearson 相关系数还低。

Jan, 2014