非母语读者的日语词汇复杂性：一个新的数据集

Jun, 2023

非母语读者的日语词汇复杂性：一个新的数据集

Japanese Lexical Complexity for Non-Native Readers: A New Dataset

Yusuke Ide, Masato Mita, Adam Nohejl, Hiroki Ouchi, Taro Watanabe

TL;DR构建了针对日语的第一个 LCP 数据集，并通过 BERT 模型在基准实验中证明了其在日语 LCP 任务中的有效性，同时提供了适合中文 / 韩文标注者和其他读者的分离复杂度得分以满足读者的母语特定需求。

Abstract

lexical complexity prediction (LCP) is the task of predicting the complexity of words in a text on a continuous scale. It plays a vital role in simplifying or annotating complex words to assist readers. To study lexical complexity in →

lexical complexity prediction japanese lcp dataset bert-based system chinese/korean annotators

发现论文，激发创造

使用 Likert 量表数据进行词汇复杂度预测的新语料库 CompLex

本文介绍了第一个英语数据集，以连续的词汇复杂度预测为目标，通过使用一种 5 点 Likert 量表方案，注释文本中来自三个领域的复杂单词并得出： 9,476 个句子的语料库。

Mar, 2020

词汇复杂度预测：概述

本文主要介绍了如何利用计算模型思想来预测英文文本的词汇复杂度，并详细论述了基于传统机器学习分类器和深度神经网络的不同方法，以及相关实验和应用领域如文本简化。

Mar, 2023

BigGreen 在 SemEval-2021 任务 1 中使用装配模型预测词汇复杂度

本文介绍一个系统，该系统可以预测英语单词在给定上下文中的词汇复杂度。该系统基于 BERT，并通过特征工程模型与深度神经网络模型相结合，使用手工制作的特征来进行预测。通过 BERT 注意力图的可视化，我们可以发现 Transformers 模型在进行预测时所学习的一些特征。我们展示了如何将其用于多单词表达式子任务，同时，对于单一单词子任务，我们的集成预测表现也十分出色。

Apr, 2021

SemEval-2021 任务 1：词汇复杂度预测

本文介绍了 SemEval-2021 任务 1 的结果和主要发现，该任务专注于单词和多词表达式的词汇复杂性预测，使用 CompLex 语料库对这些单词和表达式进行了标注。该比赛吸引了 198 支队伍参加，其中 54 支队伍提交了关于单词的正式结果，37 支队伍提交了关于多词表达式的正式结果。

Jun, 2021

一个词汇复杂度词典和神经可读性排名模型，用于词汇简化

本文利用基于人类判断的词汇复杂性词典和基于高斯的特征向量化层提出了一种新的神经可读性排名模型，用于衡量任何给定单词或短语的复杂性，并通过将该模型应用于 Paraphrase 数据库（PPDB）生成了超过 1000 万个简化的复述规则。实验证明，我们的模型在不同的词汇简化任务和评估数据集上表现优于现有的最佳系统。

Oct, 2018

MultiLS-SP/CA：加泰罗尼亚语和西班牙语的词汇复杂性预测和词汇简化资源

通过使用 MultiLS-SP/CA 数据集，本研究描述了自动词汇简化的任务，此数据集为西班牙语和加泰罗尼亚语提供了一种新的方法，首次包含西班牙语的词汇理解困难度的定量评分，并将此数据集的实验结果作为未来工作的基准。

Apr, 2024

MultiLS：一个多任务词汇简化框架

自动将难以阅读的词替换为更易理解的替代词，以改善文本可访问性；通过创建多任务的 LS 数据集，MultiLS 框架和 MultiLS-PT 数据集的潜力得到展示，并报告了基于转换器和大型语言模型的模型性能。

Feb, 2024

利用字母位置概率评估词复杂性

通过使用简单和复杂词汇的样本，研究发现字母位置概率与简单和复杂词汇之间存在强大的统计关联，并创建一个基于字母位置概率的分类器，可以以 83% 的准确率对这两类进行分类。通过对额外数据集的测试，证实了这一发现，最终建立了一个准确率为 97% 的分类器，并用于评分英语课程中的四个级别的单词组。

Apr, 2024

LC-Score：无参考文本理解难度评估

我们提出了一个简单的方法 LC-Score，用于训练法语文本的阅读理解指标，通过预测给定文本的易读性来定量捕捉文本与清晰语言指南的契合程度。我们探索了两种方法：使用语言学动机指标训练统计模型，以及从文本中直接利用预训练语言模型进行神经学习。我们通过两个人工注释实验评估了我们的模型，发现两种方法（基于指标和神经）优于常用的可读性和理解度量，如 FKGL 和 SAMSA。

Oct, 2023

从文档级分布估计词汇复杂性

我们开发了一种两步方法来评估词汇复杂度，不需要任何预先注释的数据，并且我们验证了该方法在挪威语中的有效性，并通过统计测试和对真实评估工具样本进行定性评估来调查复杂度测量与文献中通常与复杂度相关的某些特征之间的关系。

Apr, 2024