VTCC-NLP 参加 NL4Opt 竞赛子任务 1:命名实体识别的集成预训练语言模型
本文描述我们在 SemEval 2022 任务 11 中使用 Transformer 层自适应地整合多个预训练语言模型进行实体识别,在波斯语和荷兰语方面表现优异。
May, 2022
本文在 NL4Opt 竞赛的子任务 1(NER 任务)中提出了一种集成方法。我们首先在竞赛数据集上对预训练语言模型进行微调,然后采用差分学习率和对抗性训练策略来增强模型的泛化能力和鲁棒性。此外,我们还采用模型集成方法进行最终预测,在 NER 任务中获得了第二名的好成绩,达到了微平均 F1 分数 93.3% 的水平。
Jan, 2023
本文通过使用不同的预训练语言模型(BERT,SciBERT 和 XLM-R)提出了三个方法来解决学术出版物中软件提及检测的子任务 I。我们的最佳系统通过一个三阶段框架来解决命名实体识别问题,实验证明我们的方法在官方数据集上取得了竞争性的性能,超过了其他参赛队伍和我们的替代方法,基于 XLM-R 模型的框架达到了 67.80% 的加权 F1 得分,在软件提及识别任务中获得了第三名。
Apr, 2024
本文研究了英文语言的复杂 NER 任务,使用预训练语言模型如 BERT 取得竞争性成绩,并 qualitatively 分析了多种架构在此任务上的表现,最佳模型相比 baseline F1-score 提升了超过 9%。
Apr, 2022
本研究使用多个预训练语言模型,包括 BERT、XLNet、RoBERTa、SciBERT 和 ALBERT,通过冻结和微调它们的权重,并探索多任务架构,以解决 SemEval-2020 中的三个 DeftEval 子任务,最终取得 32 和 37 名的成绩。
Sep, 2020
本文研究了一种基于多语言 BERT 的单一命名实体识别模型,使用多任务学习和分块更新规则等正则化策略优化模型,并证明在多种语言数据集上表现优于专注于单一语言模型,并能够进行零样本预测。
Nov, 2019
本论文描述了 USTC_NELSLIP 系统,在 2016 年 TAC 知识库填充 (KBP) 竞赛中提交的 Trilingual Entity Detection and Linking (EDL) 赛道,使用了两种方法进行实体发现和提及检测 (即使用 条件 RNNLM 和基于注意力的编码器解码器框架),将实体链接 (EL) 系统分为两个模块:基于规则的候选生成和神经网络概率排名模型。此外,还使用一些简单的字符串匹配规则进行 NIL 聚类,在结束时,我们的最佳系统在整个类型提及 CEAF 加度量中取得了 0.624 的 F1 值。
Nov, 2016
通过在所有提供的 12 种语言数据集上微调 XLM-Roberta 基础模型,利用跨语言表示方法解决 NER 多语言复杂命名实体识别任务,达到 SemEval 2023 任务 2 的最佳表现。
May, 2023
研究使用多语言集成模型,针对 SemEval-2023 任务 3:在在线新闻中检测类别、框架和说服技巧。在三个子任务中,使用 RoBERTa 和 mBERT 等方法,分别在不同语言中获得前几名的结果。
Mar, 2023
本文介绍了我们参加 SemEval-2022 多语言复杂命名实体识别英文赛道的基于 Transformer 预训练模型的简单有效基准系统,取得了 72.50% 的 F1 得分,同时讨论了通过实体链接进行数据增强的方法。
Feb, 2022