使用 BERT 实现通用语言命名实体识别
我们提出了一个高效的建模框架,用于半结构化文本数据中的跨语言命名实体识别。我们的方法依赖于知识蒸馏和一致性训练,并且利用预训练在源语言上的大型语言模型(XLMRoBERTa)的知识,通过学生 - 教师关系(知识蒸馏)。学生模型在低资源目标语言上采用无监督的一致性训练(使用 KL 散度损失)。我们使用两个独立的 SMS 数据集,分别是英语和阿拉伯语,每个数据集都携带有半结构化的银行交易信息,并侧重展示从英语到阿拉伯语的知识传递。通过仅使用 30 个标记样本,我们的模型可以将商家、金额和其他字段的识别从英语推广到阿拉伯语。我们的实验表明,在低资源语言的少量标记样本的情况下,学习在英语中识别实体就足以在低资源语言中达到合理的性能。该提出的框架对于开发多语言应用程序,尤其是在数字化努力依赖英语和一种或多种低资源语言的地理区域具有重要意义,有时与英语混合使用或独立使用。
Jul, 2023
本研究 fine-tune 了一个受欢迎的德语 BERT 语言模型,用于 Legal Entity Recognition(LER)数据集,结果表明我们的模型在 LER 任务上表现比 BiLSTM-CRF+ 模型更优,并通过 HuggingFace 对外公开。
Mar, 2023
本文描述了微软在交叉语种命名实体识别中的新实践方法,使用源语种的标注数据和目标语种的无标注数据,采用半监督学习和强化学习的方法来提取弱监督信号并实现了新的最先进性能优于现有的模型。
Jun, 2021
本文使用预训练的深度双向网络 Google BERT,建立了一个用于波斯语命名实体识别的模型,并在 CONLL 2003 评测任务中获得了较高的成绩。
Mar, 2020
本文提出一种基于词级对抗训练、参数共享和特征增强的无监督跨语言命名实体识别模型,可在不依靠双语词典或平行数据的情况下,将命名实体知识从一种语言转移到另一种语言。通过对五种不同语言的实验表明,该模型的有效性优于现有模型,并为每个语言对设置了新的 SOTA。
Nov, 2019
本研究使用神经网络进行语言表示,探讨在葡语 NER 任务中使用 Portuguese BERT 和 BERT-CRF 结构的转移学习能力,采用基于特征和微调的训练策略,最终实现了比现有最优模型更好的结果。
Sep, 2019
本文研究低资源印度语言 Hindi 和 Marathi 的命名实体识别 (NER),使用 base-BERT,RoBERTa 和 AlBERT 等变体进行了基准测试,并在不同单语和多语 Transformer 模型之间进行了详细比较,发现 MahaRoBERTa 单语模型在 Marathi NER 方面表现最佳,而多语言 XLM-RoBERTa 在 Hindi NER 方面表现最佳。文中还进行了跨语言评估和提出了简单基线。
Mar, 2022
本文提出了一种基于多语言训练的实体和关系抽取框架 (mERE),使用两阶段多语言训练方法和多语言实体、关系抽取联合模型,通过语言通用聚合器 (LA) 和语言特定切换器 (LS) 分别缓解语言干扰并提高关系三元组的抽取效果,实验结果表明该方法优于单语言和多语言基线模型。
Jan, 2023
本研究利用荷兰语、英语和德语之间的跨语言转移学习,使用管道和端到端(E2E)方案,利用自定义伪标注数据集的 Wav2Vec2-XLS-R 模型,研究了几种跨语言系统的适应性,结果表明,端到端的口语命名实体识别优于基于管道的替代方案。 转移学习从德语到荷兰语的效果比荷兰语 E2E 系统高 7%,比管道系统高 4%。
Jul, 2023
该研究探讨了 mBERT 作为零 - shot 语言转移模型在跨语言任务上的运用,包括 NLI、文档分类、NER、POS 标注和依赖分析等五个任务。研究发现,mBERT 在每个任务上都具有竞争力,并考察了其使用策略、语言无关特征和影响跨语言传输的因素。
Apr, 2019