大型本体多语言提取
通过在所有提供的 12 种语言数据集上微调 XLM-Roberta 基础模型,利用跨语言表示方法解决 NER 多语言复杂命名实体识别任务,达到 SemEval 2023 任务 2 的最佳表现。
May, 2023
本文描述了解决 SemEval 2023 Task 2:MultiCoNER II(多语言复杂命名实体识别)问题所构建的体系结构和系统。我们评估了两种方法:传统的条件随机场模型和经过自定义头部微调的大型语言模型(LLM),并比较了这两种方法。我们探索的新想法有:1)衰减辅助损失(带剩余项)- 在模型上训练粗粒度 NER 的辅助任务并将其包括在损失函数的一部分中;2)三元标记混合 - 探索在最终 NER 层中预测之前混合相邻标记的嵌入方式;3)任务最优头部 - 探索各种用于 LLM 最终层的自定义头部和学习率。我们还尝试了多个 LLM,包括 GPT-3,并在最终模型中使用了多种 dropout 和其他超参数设置,该模型在开发数据上达到了 0.85/0.84 的微观和宏观 F1 值,并在测试数据上达到了 0.67/0.61。我们证明,虽然预训练的 LLM 本身相对传统模型带来了很大的改进,但通过上述额外特征 / 损失 / 模型工程技术的增强,我们还可以显著提高宏观 F1 分数。
Jan, 2024
介绍了一种名为 MultiCoNER 的大型多语言数据集,可支持 11 种语言和 3 个领域的命名实体识别。使用两个 NER 模型对数据集进行了测试,并对其进行了评估。建立的模型都表现出了不俗的性能,但加入 Gazetteers 后性能提高了 30%。希望这个数据集能够帮助研究人员建立更为健壮的命名实体识别系统。
Aug, 2022
使用多语言 Transformer XLM-RoBERTa 的上下文化表示来处理多语言和混合编码查询的复杂 NER 任务,通过 CRF 的标记分类层和拾取来捕获命名实体范围和使用自我培训机制从大型未标记数据集生成弱标注数据。在 Multilingual Complex Named Entity Recognition 的共享任务中,我们的提出的系统在多语言和混合编码 MultiCoNER 的追踪中分别排名第 6 和第 8。
Apr, 2022
本文提出了一种基于多语言训练的实体和关系抽取框架 (mERE),使用两阶段多语言训练方法和多语言实体、关系抽取联合模型,通过语言通用聚合器 (LA) 和语言特定切换器 (LS) 分别缓解语言干扰并提高关系三元组的抽取效果,实验结果表明该方法优于单语言和多语言基线模型。
Jan, 2023
提出了一种用于多模态学习的稀疏专家模型 LIMoE,该模型接受图像和文本,使用对比损失进行训练,并提出一种熵基准的正则化方案。LIMoE 在多个尺度上展示出优异的性能,并能够实现零样本 ImageNet 准确度的显著提高。
Jun, 2022
本研究展示如何使用维基百科和 Freebase 自动构建 40 种主要语言的多语言命名实体识别注释器,不需要任何人工标注数据集或语言特定的资源,通过生成分布式词表示,达到竞争性的表现,并提出了一种新的远程评估方法。
Oct, 2014
提出了一种新的多语言实体链接公式,其中语言特定的提及解析为面向语言不可知的知识库。 在改进特征表示,负面挖掘和辅助实体配对任务的先前工作的基础上,我们在这个新的环境中训练了一个双编码器,以获得单个实体检索模型,它涵盖了 100 多种语言和 2000 万个实体。该模型胜过了远远有限的跨语言链接任务的最新结果。 这个大规模的系统面临着罕见实体和低资源语言的挑战,因此我们主张增加对零点和少量射击评估的关注。 为此,我们提供了 Mewsli-9,一个新的大型多语言数据集,帮助我们了解基于频率的分析如何为我们的模型和训练增强提供关键见解。
Nov, 2020
通过将大型语言模型(LLMs)应用于生物医学命名实体识别(NER)任务,将 NER 任务分解为实体跨度提取和实体类型确定两个步骤,同时注入实体知识以解决 LLM 在预测实体类别时缺乏领域知识的问题,实验证明了我们的两步 BioNER 方法相对于之前的少样本 LLM 基线在性能上有显著提高,而引入外部知识则显著增强了实体类别确定性能。
Sep, 2023
利用开源的大型语言模型 LLaMA2 作为骨干模型,并设计特定指令来区分不同类型的实体和数据集,通过将骨干模型理解指令与序列标注技术相结合,使用多个数据集来训练一个能够提取各种类型实体的模型 VANER,集成外部实体知识库和使用指令调整,通过参数的小分区训练的 VANER 明显优于之前基于大型语言模型的模型,并且作为基于大型语言模型的模型,首次超过传统的 BioNER 系统大多数最先进的模型,实现了三个数据集中最高的 F1 分数。
Apr, 2024