从文档级分布估计词汇复杂性

COLINGApr, 2024

Estimating Lexical Complexity from Document-Level Distributions

Sondre Wold, Petter Mæhlum, Oddbjørn Hove

TL;DR我们开发了一种两步方法来评估词汇复杂度，不需要任何预先注释的数据，并且我们验证了该方法在挪威语中的有效性，并通过统计测试和对真实评估工具样本进行定性评估来调查复杂度测量与文献中通常与复杂度相关的某些特征之间的关系。

Abstract

Existing methods for complexity estimation are typically developed for entire documents. This limitation in scope makes them inapplicable for shorter pieces of text, such as health assessment tools. These typical

complexity estimation health assessment tools lexical complexity norwegian language statistical testing

发现论文，激发创造

词汇复杂度预测：概述

本文主要介绍了如何利用计算模型思想来预测英文文本的词汇复杂度，并详细论述了基于传统机器学习分类器和深度神经网络的不同方法，以及相关实验和应用领域如文本简化。

Mar, 2023

使用 Likert 量表数据进行词汇复杂度预测的新语料库 CompLex

本文介绍了第一个英语数据集，以连续的词汇复杂度预测为目标，通过使用一种 5 点 Likert 量表方案，注释文本中来自三个领域的复杂单词并得出： 9,476 个句子的语料库。

Mar, 2020

文本中的词汇多样性测量：双倍长度问题

文本长度对词汇多样性的估计产生了一个世纪以来科学界的关注，虽然已提出许多指标和进行了许多研究来评估它们，但问题仍然存在。本方法论综述不仅对语言学习研究中最常用的指标进行了批判性分析，而且对于长度问题本身以及评估所提出解决方案的方法也进行了分析。对三个英语学习者文本数据集的分析表明，通过使用概率或算法方法将所有文本缩短到相同长度的指标解决了长度依赖性的问题；然而，所有这些指标都未解决第二个问题，即敏感性的参数决定缩短文本的长度。论文最后给出了优化词汇多样性分析的建议。

Jul, 2023

量化法语文件的复杂度

该研究针对多元文本语料库构建了法语文本的复杂度测量方法，采用多种度量指标和不同机器学习算法探索了法语文本的复杂性特征，研究结果表明该方法可有效测量法语文本的复杂度。

Aug, 2022

利用字母位置概率评估词复杂性

通过使用简单和复杂词汇的样本，研究发现字母位置概率与简单和复杂词汇之间存在强大的统计关联，并创建一个基于字母位置概率的分类器，可以以 83% 的准确率对这两类进行分类。通过对额外数据集的测试，证实了这一发现，最终建立了一个准确率为 97% 的分类器，并用于评分英语课程中的四个级别的单词组。

Apr, 2024

一个词汇复杂度词典和神经可读性排名模型，用于词汇简化

本文利用基于人类判断的词汇复杂性词典和基于高斯的特征向量化层提出了一种新的神经可读性排名模型，用于衡量任何给定单词或短语的复杂性，并通过将该模型应用于 Paraphrase 数据库（PPDB）生成了超过 1000 万个简化的复述规则。实验证明，我们的模型在不同的词汇简化任务和评估数据集上表现优于现有的最佳系统。

Oct, 2018

德语文本复杂度的主观评估数据集

该研究提供了 TextComplexityDE 数据集，其中包括 1000 个句子，采自不同领域的 23 篇德文维基百科文章，用于开发文本复杂性预测模型和德语自动文本简化。该数据集包括由德语学习者在 A 和 B 级别提供的不同文本复杂度方面的主观评估，此外，还包括了由母语德语者提供的 250 个句子的手动简化以及目标群体参与者对简化后句子的主观评估。主观评级使用实验室研究和众包方法进行收集。

Apr, 2019

词汇复杂性控制的句子生成

我们提出了一个新颖的任务，即控制词汇复杂度的句子生成，该任务旨在使用具有所需复杂度水平的关键词生成句子。我们提出了一种基于复杂度嵌入的简单而有效的方法，用于训练模型和微调预训练模型，并在英文和中文数据集上进行了广泛的实验。结果表明，相对于基线方法，我们的方法更好地控制了词汇复杂度并生成了更高质量的句子。

Nov, 2022

长文件的内容减少、惊讶度和信息密度估计

我们提出了四项用于估计长文档信息密度的标准，包括惊讶度、熵、均匀信息密度和词汇密度，并提出了一种基于注意力的临床笔记词语选择方法和多领域文档的机器摘要方法。实证结果表明不同领域的长文本信息密度存在系统差异，基于注意力的词语选择方法对于长临床笔记的自动医学编码具有有效性。

Sep, 2023

混合代码社交媒体文本的复杂度度量

本文讨论了如何确定在多语混杂的社交媒体文本中代码混杂的复杂度，并提出了新的指标以更好地反映多语混杂文档的复杂性，可应用于句子、段落或整个文档。

Jul, 2017