复杂词汇识别:数据注释和系统性能挑战
本文介绍了第一个英语数据集,以连续的词汇复杂度预测为目标,通过使用一种 5 点 Likert 量表方案,注释文本中来自三个领域的复杂单词并得出: 9,476 个句子的语料库。
Mar, 2020
本篇论文报告了第二次 Complex Word Identification (CWI) shared task 的结果,这是 BEA 与 NAACL-HLT'2018 会议合作的一部分。该任务旨在识别复杂词语,分为 4 个轨道,包括英语、德语、西班牙语和多语种,涵盖了两种任务:二元分类和概率分类。11 个团队提交了论文,详细描述了其结果和方法。
Apr, 2018
本文介绍了关于复杂词汇辨识(CWI)的研究,包括单语和跨语言的模型,并使用神经网络实现了多任务学习,取得了可比和更好的成果,此外还分析了数据标注不一致的原因。
Apr, 2019
本文提出一种基于领域适应的复杂词识别训练技术,以改善目标字符和上下文的表示方式,并建议使用文本简化作为补充的词汇复杂度预测技术,从而在多种语料库和领域上提高了模型精度,并获得了最新平均绝对误差结果。
May, 2022
本文使用新颖的主动学习框架,并发布了一个复杂度注释和模型的数据集,以作为进一步研究的基准,证明了针对个人的模型最适合预测个人读者的词汇难度。
May, 2022
本研究利用零样本、一次样本和少量样本学习技术,结合自然语言处理的最先进解决方案,通过使用四种不同语言(英语、德语、西班牙语和法语)的 CWI 共享任务数据集,证明了提出的模型可以在多语言环境中学习复杂单词的特征,并在零样本学习场景下在英语、德语和西班牙语三种语言中的宏 F1 分数上超过了现有的跨语言结果。同时,我们的模型也在德语(0.795 宏 F1 分数)的单语上表现出色。
Oct, 2020
本文介绍了 CLaC-EDLK 团队在 SemEval 2016 的 “复杂单词识别任务” 中所采用的系统,该系统基于语言特征和认知复杂度,运用多个有监督学习模型,其中随机森林模型的表现最佳,最终我们的最佳配置在任务中取得了 68.8% 的 G-score,排名第 21 位。
Sep, 2017
本文利用基于核函数的学习方法相结合的特征提取方法来进行 2018 年复杂单词识别 (CWI) 共享任务,并且在英语维基百科数据集上获得了较好的结果.
Mar, 2018
本文介绍了 SemEval-2021 任务 1 的结果和主要发现,该任务专注于单词和多词表达式的词汇复杂性预测,使用 CompLex 语料库对这些单词和表达式进行了标注。该比赛吸引了 198 支队伍参加,其中 54 支队伍提交了关于单词的正式结果,37 支队伍提交了关于多词表达式的正式结果。
Jun, 2021