Aug, 2023

语言生产力的概率测量方法

TL;DR本文提出了一种新的衡量语言生产力的方式,可以客观评估词缀作为构词元素形成新的复杂词语的能力,并且不直接依赖于词汇频率。作者建议将语言生产力视为词缀与随机基础词组合的概率,这种方法的优点包括避免了词汇频率对生产力度量的主导作用,自然地影响基础词的采样,并且通过模拟构建这些类型并检查它们是否在语料库中得到确认,而不仅仅是计数词缀的已认证词汇类型。该算法在英语和俄语数据上进行了评估,研究结果为语言生产力与类型和词汇量之间的关系提供了一些有价值的见解,语言生产力的增长似乎体现在类型数量的增加上,但这个过程分为两个阶段:首先是高频项目的增加,然后才是低频项目的增加。