Jul, 2023

文本中的词汇多样性测量:双倍长度问题

TL;DR文本长度对词汇多样性的估计产生了一个世纪以来科学界的关注,虽然已提出许多指标和进行了许多研究来评估它们,但问题仍然存在。本方法论综述不仅对语言学习研究中最常用的指标进行了批判性分析,而且对于长度问题本身以及评估所提出解决方案的方法也进行了分析。对三个英语学习者文本数据集的分析表明,通过使用概率或算法方法将所有文本缩短到相同长度的指标解决了长度依赖性的问题;然而,所有这些指标都未解决第二个问题,即敏感性的参数决定缩短文本的长度。论文最后给出了优化词汇多样性分析的建议。