跨多语言的复杂词辨识强基线

ACLApr, 2019

Strong Baselines for Complex Word Identification across Multiple Languages

Pierre Finnimore, Elisabeth Fritzsch, Daniel King, Alison Sneyd, Aneeq Ur Rehman...

TL;DR本文介绍了关于复杂词汇辨识（CWI）的研究，包括单语和跨语言的模型，并使用神经网络实现了多任务学习，取得了可比和更好的成果，此外还分析了数据标注不一致的原因。

Abstract

complex word identification (cwi) is the task of identifying which words or phrases in a sentence are difficult to understand by a target audience. The latest →

complex word identification cwi monolingual cross-lingual neural networks

发现论文，激发创造

跨语言迁移学习用于复杂词汇识别

本研究利用零样本、一次样本和少量样本学习技术，结合自然语言处理的最先进解决方案，通过使用四种不同语言（英语、德语、西班牙语和法语）的 CWI 共享任务数据集，证明了提出的模型可以在多语言环境中学习复杂单词的特征，并在零样本学习场景下在英语、德语和西班牙语三种语言中的宏 F1 分数上超过了现有的跨语言结果。同时，我们的模型也在德语（0.795 宏 F1 分数）的单语上表现出色。

Oct, 2020

跨语言和多领域单语环境下的复杂单词识别领域自适应

本文提出一种基于领域适应的复杂词识别训练技术，以改善目标字符和上下文的表示方式，并建议使用文本简化作为补充的词汇复杂度预测技术，从而在多种语料库和领域上提高了模型精度，并获得了最新平均绝对误差结果。

May, 2022

2018 年复杂词汇识别共享任务报告

本篇论文报告了第二次 Complex Word Identification (CWI) shared task 的结果，这是 BEA 与 NAACL-HLT'2018 会议合作的一部分。该任务旨在识别复杂词语，分为 4 个轨道，包括英语、德语、西班牙语和多语种，涵盖了两种任务：二元分类和概率分类。11 个团队提交了论文，详细描述了其结果和方法。

Apr, 2018

复杂词汇识别：数据注释和系统性能挑战

本研究重新审视复杂词汇鉴别问题，使用集成分类器研究计算方法能否有效区分复杂和非复杂词汇，并分析分类性能以了解词汇复杂性的挑战性原因，发现大多数系统在 SemEval CWI 数据集上表现不佳，其中一个原因是人类标注方式。

Oct, 2017

不是所有的都适合：个性化词汇难度模型的案例

本文使用新颖的主动学习框架，并发布了一个复杂度注释和模型的数据集，以作为进一步研究的基准，证明了针对个人的模型最适合预测个人读者的词汇难度。

May, 2022

如何（正确地）评估跨语言词向量：关于强基线、比较分析及一些误解

本文基于多语言词嵌入（CLE）并从多个方面对 CLW 模型进行了全面评估，提出了优化 CLE 模型的方法及对现有基线进行重新评估的重要性。

Feb, 2019

使用 Likert 量表数据进行词汇复杂度预测的新语料库 CompLex

本文介绍了第一个英语数据集，以连续的词汇复杂度预测为目标，通过使用一种 5 点 Likert 量表方案，注释文本中来自三个领域的复杂单词并得出： 9,476 个句子的语料库。

Mar, 2020

UnibucKernel: 用于复杂词语识别的基于核的学习方法

本文利用基于核函数的学习方法相结合的特征提取方法来进行 2018 年复杂单词识别 (CWI) 共享任务，并且在英语维基百科数据集上获得了较好的结果.

Mar, 2018

XL-WiC: 用于评估语义上下文的多语言基准

提出了一种多语言的词义消歧基准测试库（称为 XL-WiC），用于评估具有不同语言背景和资源可用性的模型，即使模型仅在英语数据上进行训练，仍能在跨语言学习中达到良好的性能。

Oct, 2020

SemEval-2016 11 号任务中 CLaC: 探究语言和心理语言学特征在复杂词语识别中的应用

本文介绍了 CLaC-EDLK 团队在 SemEval 2016 的 “复杂单词识别任务” 中所采用的系统，该系统基于语言特征和认知复杂度，运用多个有监督学习模型，其中随机森林模型的表现最佳，最终我们的最佳配置在任务中取得了 68.8% 的 G-score，排名第 21 位。

Sep, 2017