本文介绍了第一个英语数据集,以连续的词汇复杂度预测为目标,通过使用一种 5 点 Likert 量表方案,注释文本中来自三个领域的复杂单词并得出: 9,476 个句子的语料库。
Mar, 2020
本文利用基于人类判断的词汇复杂性词典和基于高斯的特征向量化层提出了一种新的神经可读性排名模型,用于衡量任何给定单词或短语的复杂性,并通过将该模型应用于 Paraphrase 数据库(PPDB)生成了超过 1000 万个简化的复述规则。实验证明,我们的模型在不同的词汇简化任务和评估数据集上表现优于现有的最佳系统。
Oct, 2018
本文提出了一种基于任务依赖的透明的文本简化流水线,第一步和第二步分别是文本是否需要简化的预测和复杂部分的识别,这两个任务可以通过词汇或深度学习方法分别解决,同时解决会提高最先进黑箱简化模型的外样本文本简化表现。
Jul, 2020
构建了针对日语的第一个 LCP 数据集,并通过 BERT 模型在基准实验中证明了其在日语 LCP 任务中的有效性,同时提供了适合中文 / 韩文标注者和其他读者的分离复杂度得分以满足读者的母语特定需求。
Jun, 2023
本文介绍一个系统,该系统可以预测英语单词在给定上下文中的词汇复杂度。该系统基于 BERT,并通过特征工程模型与深度神经网络模型相结合,使用手工制作的特征来进行预测。通过 BERT 注意力图的可视化,我们可以发现 Transformers 模型在进行预测时所学习的一些特征。我们展示了如何将其用于多单词表达式子任务,同时,对于单一单词子任务,我们的集成预测表现也十分出色。
Apr, 2021
我们开发了一种两步方法来评估词汇复杂度,不需要任何预先注释的数据,并且我们验证了该方法在挪威语中的有效性,并通过统计测试和对真实评估工具样本进行定性评估来调查复杂度测量与文献中通常与复杂度相关的某些特征之间的关系。
Apr, 2024
本文介绍了 SemEval-2021 任务 1 的结果和主要发现,该任务专注于单词和多词表达式的词汇复杂性预测,使用 CompLex 语料库对这些单词和表达式进行了标注。该比赛吸引了 198 支队伍参加,其中 54 支队伍提交了关于单词的正式结果,37 支队伍提交了关于多词表达式的正式结果。
Jun, 2021
通过使用简单和复杂词汇的样本,研究发现字母位置概率与简单和复杂词汇之间存在强大的统计关联,并创建一个基于字母位置概率的分类器,可以以 83% 的准确率对这两类进行分类。通过对额外数据集的测试,证实了这一发现,最终建立了一个准确率为 97% 的分类器,并用于评分英语课程中的四个级别的单词组。
本文研究了语言模型在理解阅读中的应用,发现概率语言模型在得知前文后更有深入的语法和语义解释,从多个层面上与阅读时间都有非常明显的关联。
Feb, 2022
本文针对近几年来人工智能 / 自然语言处理 community 中深度学习的进步,特别是大型语言模型和 prompt 学习的引入,在词汇简化领域(Lexical Simplification,LS)进行了全面的研究和调查,特别关注深度学习,在具体实践中展示了该任务的子任务,并提出未来的发展方向和基准数据集。
May, 2023