UnibucKernel: 用于复杂词语识别的基于核的学习方法

ACLMar, 2018

UnibucKernel: 用于复杂词语识别的基于核的学习方法

UnibucKernel: A kernel-based learning method for complex word identification

Andrei M. Butnaru, Radu Tudor Ionescu

TL;DR本文利用基于核函数的学习方法相结合的特征提取方法来进行 2018 年复杂单词识别 (CWI) 共享任务，并且在英语维基百科数据集上获得了较好的结果.

Abstract

In this paper, we present a kernel-based learning approach for the 2018 complex word identification (CWI) Shared Task. Our approach is based on combining multiple low-level features, such as character n-grams, wi

complex word identification kernel-based learning support vector machines regresion wordnet

发现论文，激发创造

复杂词汇识别：数据注释和系统性能挑战

本研究重新审视复杂词汇鉴别问题，使用集成分类器研究计算方法能否有效区分复杂和非复杂词汇，并分析分类性能以了解词汇复杂性的挑战性原因，发现大多数系统在 SemEval CWI 数据集上表现不佳，其中一个原因是人类标注方式。

Oct, 2017

跨语言迁移学习用于复杂词汇识别

本研究利用零样本、一次样本和少量样本学习技术，结合自然语言处理的最先进解决方案，通过使用四种不同语言（英语、德语、西班牙语和法语）的 CWI 共享任务数据集，证明了提出的模型可以在多语言环境中学习复杂单词的特征，并在零样本学习场景下在英语、德语和西班牙语三种语言中的宏 F1 分数上超过了现有的跨语言结果。同时，我们的模型也在德语（0.795 宏 F1 分数）的单语上表现出色。

Oct, 2020

跨多语言的复杂词辨识强基线

本文介绍了关于复杂词汇辨识（CWI）的研究，包括单语和跨语言的模型，并使用神经网络实现了多任务学习，取得了可比和更好的成果，此外还分析了数据标注不一致的原因。

Apr, 2019

跨语言和多领域单语环境下的复杂单词识别领域自适应

本文提出一种基于领域适应的复杂词识别训练技术，以改善目标字符和上下文的表示方式，并建议使用文本简化作为补充的词汇复杂度预测技术，从而在多种语料库和领域上提高了模型精度，并获得了最新平均绝对误差结果。

May, 2022

SemEval-2016 11 号任务中 CLaC: 探究语言和心理语言学特征在复杂词语识别中的应用

本文介绍了 CLaC-EDLK 团队在 SemEval 2016 的 “复杂单词识别任务” 中所采用的系统，该系统基于语言特征和认知复杂度，运用多个有监督学习模型，其中随机森林模型的表现最佳，最终我们的最佳配置在任务中取得了 68.8% 的 G-score，排名第 21 位。

Sep, 2017

使用 Likert 量表数据进行词汇复杂度预测的新语料库 CompLex

本文介绍了第一个英语数据集，以连续的词汇复杂度预测为目标，通过使用一种 5 点 Likert 量表方案，注释文本中来自三个领域的复杂单词并得出： 9,476 个句子的语料库。

Mar, 2020

2018 年复杂词汇识别共享任务报告

本篇论文报告了第二次 Complex Word Identification (CWI) shared task 的结果，这是 BEA 与 NAACL-HLT'2018 会议合作的一部分。该任务旨在识别复杂词语，分为 4 个轨道，包括英语、德语、西班牙语和多语种，涵盖了两种任务：二元分类和概率分类。11 个团队提交了论文，详细描述了其结果和方法。

Apr, 2018

利用字符串核和词嵌入进行自动化论文评分

本文采用串核和词嵌入的方法对自动化论文评分进行研究，并结合语义特征表征和深度学习技术，在学生自动评估奖数据集上实现了最好的性能表现。

Apr, 2018

字符串核函数在母语识别中是否经得起时间考验？

一篇介绍用于 2017 年原生语种识别共享任务的机器学习方法的论文，该方法组合了几个内核（包括从文章或演讲转录中提取的字符 p-grams 和音频记录的低维表示），并使用核判别分析（KDA）来分类。使用该方法，研究团队在不同的竞赛分类中获得了优异的得分（达到了最好的口语和混合跟踪的得分），证明了该方法的有效性。

Jul, 2017

不是所有的都适合：个性化词汇难度模型的案例

本文使用新颖的主动学习框架，并发布了一个复杂度注释和模型的数据集，以作为进一步研究的基准，证明了针对个人的模型最适合预测个人读者的词汇难度。

May, 2022