利用费舍尔精确检验对 n-grams 关联度量进行评估
本文研究了使用统计方法自动识别依赖词组(即依赖二元组)的问题,发现 Fisher 准确性更高,常用的渐近检验方法如 t 检验、Pearson's 卡方检验和 likelihood-ratio 卡方检验与之相比不如效果好;并且 Fisher 的实用性扩展至自然语言处理中的其它问题,因为所涉及数据通常都是偏斜和稀疏的。
Aug, 1996
通过理论分析和 Monte Carlo 模拟,对传统评估方法中存在的偏见进行了讨论,提出了一些不受偏见影响的替代评估方法,如 Cohen Kappa,并进行了实证评估。
Apr, 2015
本论文提出了一种基于分布式词语相似性的概率性词汇关联模型方法,旨在提高不常见单词组合的概率估计和降低语音识别错误率。模型在语言建模和伪单词消歧任务上发挥良好,且比传统的最大似然估计和后退估计方法表现更好。
Sep, 1998
本文比较四种基于相似性的估计方法和回退及最大似然估计方法在伪词义消歧任务中的表现,结果表明基于相似性的方法在该特定任务中表现更好,同时得出只在训练集中出现一次的事件对基于相似性的估计方法有重大影响的结论。
Aug, 1997
语言间的词汇相似性表明它们可能存在遗传关系,然而这些相似性也可能是偶然的,并不总是意味着潜在的遗传关系。本文提出了一种似然比检验的方法来确定语言之间的关系,并评估了一些语系,证明了该检验的可行性和支持了宏观语系的存在。
Mar, 2024
提出了一种基于重采样的方法,用于评估语料库中的关键性问题,通过建议 Gries(2006, 2022)来实现。该方法替代了单词逐个采样模型,而采用了更接近语料库实际组装方式的文档样本模型,并使用排列方法获得给定关键性得分在等频假设下的分布并得到 p 值。
Aug, 2023
本研究讨论了常见的评估措施,指出它们存在偏差,需要清楚理解偏差并识别其机会或基线水平,提出了反映预测是否知情的概率的若干概念和测量方法,引入了 Markedness 作为一种相对应的概率的二元测度,展示了 Informedness,Markedness,相关性和重要性的优雅联系,以及它们与召回率和准确率之间的直观关系,并概述了从二分类情况扩展到一般的多类情况。
Oct, 2020
研究比较了 MIC 与 Pearson 相关系数和距离相关系数在不同情况下的功率表现,发现 MIC 在大多数情况下的功率都比 dcro 低,甚至有时候比 Pearson 相关系数还低。
Jan, 2014