复杂词汇识别：数据注释和系统性能挑战

Oct, 2017

复杂词汇识别：数据注释和系统性能挑战

Complex Word Identification: Challenges in Data Annotation and System Performance

Marcos Zampieri, Shervin Malmasi, Gustavo Paetzold, Lucia Specia

TL;DR本研究重新审视复杂词汇鉴别问题，使用集成分类器研究计算方法能否有效区分复杂和非复杂词汇，并分析分类性能以了解词汇复杂性的挑战性原因，发现大多数系统在 SemEval CWI 数据集上表现不佳，其中一个原因是人类标注方式。

Abstract

This paper revisits the problem of complex word identification (CWI) following up the SemEval CWI shared task. We use ensemble classifiers to investigate how well →

complex word identification ensemble classifiers computational methods lexical complexity human annotation

发现论文，激发创造

使用 Likert 量表数据进行词汇复杂度预测的新语料库 CompLex

本文介绍了第一个英语数据集，以连续的词汇复杂度预测为目标，通过使用一种 5 点 Likert 量表方案，注释文本中来自三个领域的复杂单词并得出： 9,476 个句子的语料库。

Mar, 2020

2018 年复杂词汇识别共享任务报告

本篇论文报告了第二次 Complex Word Identification (CWI) shared task 的结果，这是 BEA 与 NAACL-HLT'2018 会议合作的一部分。该任务旨在识别复杂词语，分为 4 个轨道，包括英语、德语、西班牙语和多语种，涵盖了两种任务：二元分类和概率分类。11 个团队提交了论文，详细描述了其结果和方法。

Apr, 2018

跨多语言的复杂词辨识强基线

本文介绍了关于复杂词汇辨识（CWI）的研究，包括单语和跨语言的模型，并使用神经网络实现了多任务学习，取得了可比和更好的成果，此外还分析了数据标注不一致的原因。

Apr, 2019

跨语言和多领域单语环境下的复杂单词识别领域自适应

本文提出一种基于领域适应的复杂词识别训练技术，以改善目标字符和上下文的表示方式，并建议使用文本简化作为补充的词汇复杂度预测技术，从而在多种语料库和领域上提高了模型精度，并获得了最新平均绝对误差结果。

May, 2022

不是所有的都适合：个性化词汇难度模型的案例

本文使用新颖的主动学习框架，并发布了一个复杂度注释和模型的数据集，以作为进一步研究的基准，证明了针对个人的模型最适合预测个人读者的词汇难度。

May, 2022

跨语言迁移学习用于复杂词汇识别

本研究利用零样本、一次样本和少量样本学习技术，结合自然语言处理的最先进解决方案，通过使用四种不同语言（英语、德语、西班牙语和法语）的 CWI 共享任务数据集，证明了提出的模型可以在多语言环境中学习复杂单词的特征，并在零样本学习场景下在英语、德语和西班牙语三种语言中的宏 F1 分数上超过了现有的跨语言结果。同时，我们的模型也在德语（0.795 宏 F1 分数）的单语上表现出色。

Oct, 2020

SemEval-2016 11 号任务中 CLaC: 探究语言和心理语言学特征在复杂词语识别中的应用

本文介绍了 CLaC-EDLK 团队在 SemEval 2016 的 “复杂单词识别任务” 中所采用的系统，该系统基于语言特征和认知复杂度，运用多个有监督学习模型，其中随机森林模型的表现最佳，最终我们的最佳配置在任务中取得了 68.8% 的 G-score，排名第 21 位。

Sep, 2017

UnibucKernel: 用于复杂词语识别的基于核的学习方法

本文利用基于核函数的学习方法相结合的特征提取方法来进行 2018 年复杂单词识别 (CWI) 共享任务，并且在英语维基百科数据集上获得了较好的结果.

Mar, 2018

SemEval-2021 任务 1：词汇复杂度预测

本文介绍了 SemEval-2021 任务 1 的结果和主要发现，该任务专注于单词和多词表达式的词汇复杂性预测，使用 CompLex 语料库对这些单词和表达式进行了标注。该比赛吸引了 198 支队伍参加，其中 54 支队伍提交了关于单词的正式结果，37 支队伍提交了关于多词表达式的正式结果。

Jun, 2021

词汇复杂度预测：概述

本文主要介绍了如何利用计算模型思想来预测英文文本的词汇复杂度，并详细论述了基于传统机器学习分类器和深度神经网络的不同方法，以及相关实验和应用领域如文本简化。

Mar, 2023