利用字母位置概率评估词复杂性

Apr, 2024

Using Letter Positional Probabilities to Assess Word Complexity

Michael Dalvean

TL;DR通过使用简单和复杂词汇的样本，研究发现字母位置概率与简单和复杂词汇之间存在强大的统计关联，并创建一个基于字母位置概率的分类器，可以以 83% 的准确率对这两类进行分类。通过对额外数据集的测试，证实了这一发现，最终建立了一个准确率为 97% 的分类器，并用于评分英语课程中的四个级别的单词组。

Abstract

word complexity is defined in a number of different ways. Psycholinguistic, morphological and lexical proxies are often used. Human ratings are also used. The problem here is that these →

word complexity proxies latent complexity letter positional probabilities classifier

发现论文，激发创造

词汇复杂度预测：概述

本文主要介绍了如何利用计算模型思想来预测英文文本的词汇复杂度，并详细论述了基于传统机器学习分类器和深度神经网络的不同方法，以及相关实验和应用领域如文本简化。

Mar, 2023

使用 Likert 量表数据进行词汇复杂度预测的新语料库 CompLex

本文介绍了第一个英语数据集，以连续的词汇复杂度预测为目标，通过使用一种 5 点 Likert 量表方案，注释文本中来自三个领域的复杂单词并得出： 9,476 个句子的语料库。

Mar, 2020

一个词汇复杂度词典和神经可读性排名模型，用于词汇简化

本文利用基于人类判断的词汇复杂性词典和基于高斯的特征向量化层提出了一种新的神经可读性排名模型，用于衡量任何给定单词或短语的复杂性，并通过将该模型应用于 Paraphrase 数据库（PPDB）生成了超过 1000 万个简化的复述规则。实验证明，我们的模型在不同的词汇简化任务和评估数据集上表现优于现有的最佳系统。

Oct, 2018

音位结构复杂性及其权衡

本研究介绍了一种计算语音统计复杂度的方法，在给定来自不同语言的序列化单词和样本统计模型的基础上，通过负对数概率的近似值来比较语言的熵，发现 bits per phoneme 与平均单词长度之间呈现非常强的负相关关系

May, 2020

从文档级分布估计词汇复杂性

我们开发了一种两步方法来评估词汇复杂度，不需要任何预先注释的数据，并且我们验证了该方法在挪威语中的有效性，并通过统计测试和对真实评估工具样本进行定性评估来调查复杂度测量与文献中通常与复杂度相关的某些特征之间的关系。

Apr, 2024

相關不代表補償：詞彙中的複雜性和不規則性

在语言中，形态上不规则的词往往具有音节结构简单的特点，而形态规则的词则往往具有音节结构复杂的特点。我们研究了这四个变量之间的关系，并发现形态上的不规则性和音节结构的复杂性之间存在着正向关系，尽管在不同的语言中方向有所不同。我们还发现了形态上的不规则性和词的长度之间存在着负向关系，并且某些关于这四个变量关系的现有发现并不像以前认为的那么可靠。

Jun, 2024

自然语言的复杂系统方法

从复杂性科学的角度总结了自然语言研究中使用的主要方法概念，并记录了这些方法在识别语言的通用和系统特征方面的适用性。讨论了数量语言学中三个与复杂性相关的研究趋势，包括对文本中单词频率的研究、基于时间序列分析的方法应用于研究书面文本中的相关性、以及将网络形式主义应用于自然语言研究中。

Jan, 2024

语言模型比经验可预测性更好地解释单词阅读时间

本文研究了语言模型在理解阅读中的应用，发现概率语言模型在得知前文后更有深入的语法和语义解释，从多个层面上与阅读时间都有非常明显的关联。

Feb, 2022

复杂度测量衡量哪些方面？相关和验证基于语料库的形态复杂度测量

本文分析了八个用于量化自然语言形态复杂度的测量方法，重点关注这些方法是否是同一基础变量的测量，或者它们测量形态复杂度的多个方面。通过主成分分析，结果显示这些复杂度测量值中 92.62% 的差异是由第一主成分解释的，说明这些测量值之间存在强的线性相关性。

Apr, 2022

复杂系统分类的方法：文字、文本等

通过物理学类比，定义了基于温度、化学势、熵等参数的文本分类，提出在语言学类比的基础上，研究基因组的方法，同时讨论了熵作为文本分类参数的作用和意义。

May, 2022