SemEval-2022 任务 11 中的多语言人士:基于 Transformer 的复杂 NER 架构
本文介绍了我们参加 SemEval-2022 多语言复杂命名实体识别英文赛道的基于 Transformer 预训练模型的简单有效基准系统,取得了 72.50% 的 F1 得分,同时讨论了通过实体链接进行数据增强的方法。
Feb, 2022
使用预训练的语言模型和整词遮罩技术,结合 CRF、BiLSTMs、线性分类器等多种神经网络架构, 在中文和西班牙语两种低资源语言的命名实体识别任务上超越基准,并在任务中表现最佳模型占据竞争性位置。
Jul, 2022
本文描述我们在 SemEval 2022 任务 11 中使用 Transformer 层自适应地整合多个预训练语言模型进行实体识别,在波斯语和荷兰语方面表现优异。
May, 2022
使用多语言 Transformer XLM-RoBERTa 的上下文化表示来处理多语言和混合编码查询的复杂 NER 任务,通过 CRF 的标记分类层和拾取来捕获命名实体范围和使用自我培训机制从大型未标记数据集生成弱标注数据。在 Multilingual Complex Named Entity Recognition 的共享任务中,我们的提出的系统在多语言和混合编码 MultiCoNER 的追踪中分别排名第 6 和第 8。
Apr, 2022
本文介绍了我们在 SemEval 2022 Task 11:MultiCoNER Multilingual Complex Named Entity Recognition 中取得的成果,即:在多语言 NER 任务中,提供了一个统一的框架;在低资源代码混合 NER 任务中,采用了几种简单的数据增强方法;在中文任务中,提出了一种可以捕捉中文词汇语义、词汇边界和词汇图结构信息的模型。最后,我们的系统在子任务 11、12 和 9 的测试阶段分别获得了 77.66、84.35 和 74.00 的宏 F1 得分。
Apr, 2022
通过在所有提供的 12 种语言数据集上微调 XLM-Roberta 基础模型,利用跨语言表示方法解决 NER 多语言复杂命名实体识别任务,达到 SemEval 2023 任务 2 的最佳表现。
May, 2023
使用 BERT 模型对 SemEval2017 中 Twitter 上的英语情感分析任务 4A 进行解决,在训练数据量较小的分类任务中,BERT 是一个非常强大的大型语言模型。使用此模型进行实验时,我们使用了包含 12 个隐藏层的 BERT BASE 模型,该模型在准确性、精确率、召回率和 F1 分数上优于朴素贝叶斯基线模型,在二分类子任务中表现更好,我们还在实验过程中考虑了所有种类的伦理问题,因为 Twitter 数据包含个人和敏感信息。我们在此 GitHub 存储库中提供了实验中使用的数据集和代码。
Jan, 2024
本文描述了解决 SemEval 2023 Task 2:MultiCoNER II(多语言复杂命名实体识别)问题所构建的体系结构和系统。我们评估了两种方法:传统的条件随机场模型和经过自定义头部微调的大型语言模型(LLM),并比较了这两种方法。我们探索的新想法有:1)衰减辅助损失(带剩余项)- 在模型上训练粗粒度 NER 的辅助任务并将其包括在损失函数的一部分中;2)三元标记混合 - 探索在最终 NER 层中预测之前混合相邻标记的嵌入方式;3)任务最优头部 - 探索各种用于 LLM 最终层的自定义头部和学习率。我们还尝试了多个 LLM,包括 GPT-3,并在最终模型中使用了多种 dropout 和其他超参数设置,该模型在开发数据上达到了 0.85/0.84 的微观和宏观 F1 值,并在测试数据上达到了 0.67/0.61。我们证明,虽然预训练的 LLM 本身相对传统模型带来了很大的改进,但通过上述额外特征 / 损失 / 模型工程技术的增强,我们还可以显著提高宏观 F1 分数。
Jan, 2024
本文提出了在 SemEval 2023 任务 3 的子任务 3 中检测说服技巧的最佳解决方案,主要是通过细调预训练的基于 Transformer 的语言模型来处理多语言输入数据和多个预测标签,该方案使用大型的跨语言模型(XLM-RoBERTa 大型模型)在所有输入数据上联合训练,而且针对已知语言和未知语言分别设置合理的置信度阈值,最终在 9 种语言中的 6 种语言上(包括两个未知语言)表现最优秀并取得了高度竞争的结果。
Apr, 2023
该研究介绍了 UniBuc - NLP 团队应对 SemEval 2024 任务 8:多生成器、多领域和多语言黑盒机器生成文本检测的方法。我们探索了基于 transformer 和混合深度学习架构。其中,我们的基于 transformer 的模型在子任务 B 中以 86.95%的准确度在 77 个团队中取得了强势的第二名,展示了该架构在此任务中的适用性。然而,我们的模型在子任务 A 中显示出了过拟合的现象,这可能通过减少微调和增加最大序列长度来修复。对于子任务 C(标记级别分类),我们的混合模型在训练过程中出现了过拟合,影响了其检测人工文本和机器生成文本之间的转换能力。
May, 2024