xMEN:跨语言医学实体归一化的模块化工具包
通过在多语种预训练模型 XLM-R 基础上采用基于知识的方法,将其转化为生物医学领域的模型 KBioXLM,并通过三个粒度的知识对齐来构建生物医学多语种语料库,从而在跨语言零样本场景中达到显著的性能提升。
Nov, 2023
通过提出一个新的跨语言生物医学实体链接任务并建立一个涵盖 10 种语言的基准测试,本文研究了在标准英语生物医学实体链接任务之外,标准、知识增强的单语和多语言语言模型的能力。同时解决了把资源丰富的语言中的领域特定知识传递给资源贫乏的语言的挑战,并提出并评估了一系列的跨语言传递方法。研究表明,本文提出的领域特定传递方法在所有目标语言中均获得了持续的提高,有时可高达 20 个 Precision@1 点,而无需目标语言具有领域内的知识和对应的并行数据。
May, 2021
提出了一种新的多语言实体链接公式,其中语言特定的提及解析为面向语言不可知的知识库。 在改进特征表示,负面挖掘和辅助实体配对任务的先前工作的基础上,我们在这个新的环境中训练了一个双编码器,以获得单个实体检索模型,它涵盖了 100 多种语言和 2000 万个实体。该模型胜过了远远有限的跨语言链接任务的最新结果。 这个大规模的系统面临着罕见实体和低资源语言的挑战,因此我们主张增加对零点和少量射击评估的关注。 为此,我们提供了 Mewsli-9,一个新的大型多语言数据集,帮助我们了解基于频率的分析如何为我们的模型和训练增强提供关键见解。
Nov, 2020
提出 EMMA-X: 一种基于 EM 模型的多语种预训练算法,通过大规模非平行数据学习跨语言的通用语义,实现语义关系预测和跨语言表示学习的统一,取得了最新技术的表现。
Oct, 2023
通过使用专有和开源的大型语言模型(LLMs)与生物医学研究中常用的多种基于规则的归一化系统相结合,提高实体归一化性能并消除了需要微调的需要。
May, 2024
本文实证展示了预训练语言模型在多语言跨领域少样本学习任务中的交叉语言迁移特性,并将其应用于解决缺乏数据和真实世界挑战的混合代码(西班牙语 - 加泰罗尼亚语)临床笔记:保护个人隐私信息的命名实体识别。
Apr, 2022
提出了一种深度学习方法用于实体规范化,通过将其视为一种成对学习来排名问题,并利用最佳匹配信息检索算法和双向编码器表示从编码器 (BERT) 重新对候选列表进行排名,消除了特征工程和规则创建的需求,在物种规范化方面超过了现有方法。
Oct, 2023
使用多语言 Transformer XLM-RoBERTa 的上下文化表示来处理多语言和混合编码查询的复杂 NER 任务,通过 CRF 的标记分类层和拾取来捕获命名实体范围和使用自我培训机制从大型未标记数据集生成弱标注数据。在 Multilingual Complex Named Entity Recognition 的共享任务中,我们的提出的系统在多语言和混合编码 MultiCoNER 的追踪中分别排名第 6 和第 8。
Apr, 2022
我们提出了一个高效的建模框架,用于半结构化文本数据中的跨语言命名实体识别。我们的方法依赖于知识蒸馏和一致性训练,并且利用预训练在源语言上的大型语言模型(XLMRoBERTa)的知识,通过学生 - 教师关系(知识蒸馏)。学生模型在低资源目标语言上采用无监督的一致性训练(使用 KL 散度损失)。我们使用两个独立的 SMS 数据集,分别是英语和阿拉伯语,每个数据集都携带有半结构化的银行交易信息,并侧重展示从英语到阿拉伯语的知识传递。通过仅使用 30 个标记样本,我们的模型可以将商家、金额和其他字段的识别从英语推广到阿拉伯语。我们的实验表明,在低资源语言的少量标记样本的情况下,学习在英语中识别实体就足以在低资源语言中达到合理的性能。该提出的框架对于开发多语言应用程序,尤其是在数字化努力依赖英语和一种或多种低资源语言的地理区域具有重要意义,有时与英语混合使用或独立使用。
Jul, 2023
介绍了一种名为 MultiCoNER 的大型多语言数据集,可支持 11 种语言和 3 个领域的命名实体识别。使用两个 NER 模型对数据集进行了测试,并对其进行了评估。建立的模型都表现出了不俗的性能,但加入 Gazetteers 后性能提高了 30%。希望这个数据集能够帮助研究人员建立更为健壮的命名实体识别系统。
Aug, 2022