非母语读者的日语词汇复杂性:一个新的数据集
本文介绍了第一个英语数据集,以连续的词汇复杂度预测为目标,通过使用一种 5 点 Likert 量表方案,注释文本中来自三个领域的复杂单词并得出: 9,476 个句子的语料库。
Mar, 2020
本文介绍一个系统,该系统可以预测英语单词在给定上下文中的词汇复杂度。该系统基于 BERT,并通过特征工程模型与深度神经网络模型相结合,使用手工制作的特征来进行预测。通过 BERT 注意力图的可视化,我们可以发现 Transformers 模型在进行预测时所学习的一些特征。我们展示了如何将其用于多单词表达式子任务,同时,对于单一单词子任务,我们的集成预测表现也十分出色。
Apr, 2021
本文介绍了 SemEval-2021 任务 1 的结果和主要发现,该任务专注于单词和多词表达式的词汇复杂性预测,使用 CompLex 语料库对这些单词和表达式进行了标注。该比赛吸引了 198 支队伍参加,其中 54 支队伍提交了关于单词的正式结果,37 支队伍提交了关于多词表达式的正式结果。
Jun, 2021
本文利用基于人类判断的词汇复杂性词典和基于高斯的特征向量化层提出了一种新的神经可读性排名模型,用于衡量任何给定单词或短语的复杂性,并通过将该模型应用于 Paraphrase 数据库(PPDB)生成了超过 1000 万个简化的复述规则。实验证明,我们的模型在不同的词汇简化任务和评估数据集上表现优于现有的最佳系统。
Oct, 2018
通过使用 MultiLS-SP/CA 数据集,本研究描述了自动词汇简化的任务,此数据集为西班牙语和加泰罗尼亚语提供了一种新的方法,首次包含西班牙语的词汇理解困难度的定量评分,并将此数据集的实验结果作为未来工作的基准。
Apr, 2024
自动将难以阅读的词替换为更易理解的替代词,以改善文本可访问性;通过创建多任务的 LS 数据集,MultiLS 框架和 MultiLS-PT 数据集的潜力得到展示,并报告了基于转换器和大型语言模型的模型性能。
Feb, 2024
通过使用简单和复杂词汇的样本,研究发现字母位置概率与简单和复杂词汇之间存在强大的统计关联,并创建一个基于字母位置概率的分类器,可以以 83% 的准确率对这两类进行分类。通过对额外数据集的测试,证实了这一发现,最终建立了一个准确率为 97% 的分类器,并用于评分英语课程中的四个级别的单词组。
Apr, 2024
我们提出了一个简单的方法 LC-Score,用于训练法语文本的阅读理解指标,通过预测给定文本的易读性来定量捕捉文本与清晰语言指南的契合程度。我们探索了两种方法:使用语言学动机指标训练统计模型,以及从文本中直接利用预训练语言模型进行神经学习。我们通过两个人工注释实验评估了我们的模型,发现两种方法(基于指标和神经)优于常用的可读性和理解度量,如 FKGL 和 SAMSA。
Oct, 2023
我们开发了一种两步方法来评估词汇复杂度,不需要任何预先注释的数据,并且我们验证了该方法在挪威语中的有效性,并通过统计测试和对真实评估工具样本进行定性评估来调查复杂度测量与文献中通常与复杂度相关的某些特征之间的关系。
Apr, 2024