MMApr, 2021

利用费舍尔精确检验对 n-grams 关联度量进行评估

TL;DR使用 Fisher 精确检验的扩展来分析四百万词汇的语料库,发现 MI3 是最有效的测量方法之一,能够实现与 simple-ll 更接近的性能水平,尤其是对于三个单词的短语。此外,还观察到对于三元组,某些测量方法比二元组更有效,而其他测量方法则停滞不前。