跨多语言的复杂词辨识强基线
本研究利用零样本、一次样本和少量样本学习技术,结合自然语言处理的最先进解决方案,通过使用四种不同语言(英语、德语、西班牙语和法语)的 CWI 共享任务数据集,证明了提出的模型可以在多语言环境中学习复杂单词的特征,并在零样本学习场景下在英语、德语和西班牙语三种语言中的宏 F1 分数上超过了现有的跨语言结果。同时,我们的模型也在德语(0.795 宏 F1 分数)的单语上表现出色。
Oct, 2020
本文提出一种基于领域适应的复杂词识别训练技术,以改善目标字符和上下文的表示方式,并建议使用文本简化作为补充的词汇复杂度预测技术,从而在多种语料库和领域上提高了模型精度,并获得了最新平均绝对误差结果。
May, 2022
本篇论文报告了第二次 Complex Word Identification (CWI) shared task 的结果,这是 BEA 与 NAACL-HLT'2018 会议合作的一部分。该任务旨在识别复杂词语,分为 4 个轨道,包括英语、德语、西班牙语和多语种,涵盖了两种任务:二元分类和概率分类。11 个团队提交了论文,详细描述了其结果和方法。
Apr, 2018
本研究重新审视复杂词汇鉴别问题,使用集成分类器研究计算方法能否有效区分复杂和非复杂词汇,并分析分类性能以了解词汇复杂性的挑战性原因,发现大多数系统在 SemEval CWI 数据集上表现不佳,其中一个原因是人类标注方式。
Oct, 2017
本文使用新颖的主动学习框架,并发布了一个复杂度注释和模型的数据集,以作为进一步研究的基准,证明了针对个人的模型最适合预测个人读者的词汇难度。
May, 2022
本文基于多语言词嵌入(CLE)并从多个方面对 CLW 模型进行了全面评估,提出了优化 CLE 模型的方法及对现有基线进行重新评估的重要性。
Feb, 2019
本文介绍了第一个英语数据集,以连续的词汇复杂度预测为目标,通过使用一种 5 点 Likert 量表方案,注释文本中来自三个领域的复杂单词并得出: 9,476 个句子的语料库。
Mar, 2020
本文利用基于核函数的学习方法相结合的特征提取方法来进行 2018 年复杂单词识别 (CWI) 共享任务,并且在英语维基百科数据集上获得了较好的结果.
Mar, 2018
提出了一种多语言的词义消歧基准测试库(称为 XL-WiC),用于评估具有不同语言背景和资源可用性的模型,即使模型仅在英语数据上进行训练,仍能在跨语言学习中达到良好的性能。
Oct, 2020
本文介绍了 CLaC-EDLK 团队在 SemEval 2016 的 “复杂单词识别任务” 中所采用的系统,该系统基于语言特征和认知复杂度,运用多个有监督学习模型,其中随机森林模型的表现最佳,最终我们的最佳配置在任务中取得了 68.8% 的 G-score,排名第 21 位。
Sep, 2017