利用字母位置概率评估词复杂性
本文介绍了第一个英语数据集,以连续的词汇复杂度预测为目标,通过使用一种 5 点 Likert 量表方案,注释文本中来自三个领域的复杂单词并得出: 9,476 个句子的语料库。
Mar, 2020
本文利用基于人类判断的词汇复杂性词典和基于高斯的特征向量化层提出了一种新的神经可读性排名模型,用于衡量任何给定单词或短语的复杂性,并通过将该模型应用于 Paraphrase 数据库(PPDB)生成了超过 1000 万个简化的复述规则。实验证明,我们的模型在不同的词汇简化任务和评估数据集上表现优于现有的最佳系统。
Oct, 2018
本研究介绍了一种计算语音统计复杂度的方法,在给定来自不同语言的序列化单词和样本统计模型的基础上,通过负对数概率的近似值来比较语言的熵,发现 bits per phoneme 与平均单词长度之间呈现非常强的负相关关系
May, 2020
我们开发了一种两步方法来评估词汇复杂度,不需要任何预先注释的数据,并且我们验证了该方法在挪威语中的有效性,并通过统计测试和对真实评估工具样本进行定性评估来调查复杂度测量与文献中通常与复杂度相关的某些特征之间的关系。
Apr, 2024
在语言中,形态上不规则的词往往具有音节结构简单的特点,而形态规则的词则往往具有音节结构复杂的特点。我们研究了这四个变量之间的关系,并发现形态上的不规则性和音节结构的复杂性之间存在着正向关系,尽管在不同的语言中方向有所不同。我们还发现了形态上的不规则性和词的长度之间存在着负向关系,并且某些关于这四个变量关系的现有发现并不像以前认为的那么可靠。
Jun, 2024
从复杂性科学的角度总结了自然语言研究中使用的主要方法概念,并记录了这些方法在识别语言的通用和系统特征方面的适用性。讨论了数量语言学中三个与复杂性相关的研究趋势,包括对文本中单词频率的研究、基于时间序列分析的方法应用于研究书面文本中的相关性、以及将网络形式主义应用于自然语言研究中。
Jan, 2024
本文分析了八个用于量化自然语言形态复杂度的测量方法,重点关注这些方法是否是同一基础变量的测量,或者它们测量形态复杂度的多个方面。通过主成分分析,结果显示这些复杂度测量值中 92.62% 的差异是由第一主成分解释的,说明这些测量值之间存在强的线性相关性。
Apr, 2022