Apr, 2022

利用多语言 Transformer 使用伪标签增强多语言和代码混合的复杂命名实体识别 —— 在 SemEval-2022 任务 11 中的 UM6P-CS 模型

TL;DR使用多语言 Transformer XLM-RoBERTa 的上下文化表示来处理多语言和混合编码查询的复杂 NER 任务,通过 CRF 的标记分类层和拾取来捕获命名实体范围和使用自我培训机制从大型未标记数据集生成弱标注数据。在 Multilingual Complex Named Entity Recognition 的共享任务中,我们的提出的系统在多语言和混合编码 MultiCoNER 的追踪中分别排名第 6 和第 8。