低资源语言的跨语言金融交易数据 NER

SIGIRJul, 2023

低资源语言的跨语言金融交易数据 NER

Cross-Lingual NER for Financial Transaction Data in Low-Resource Languages

Sunisth Kumar, Davide Liu, Alexandre Boulenger

TL;DR我们提出了一个高效的建模框架，用于半结构化文本数据中的跨语言命名实体识别。我们的方法依赖于知识蒸馏和一致性训练，并且利用预训练在源语言上的大型语言模型（XLMRoBERTa）的知识，通过学生 - 教师关系（知识蒸馏）。学生模型在低资源目标语言上采用无监督的一致性训练（使用 KL 散度损失）。我们使用两个独立的 SMS 数据集，分别是英语和阿拉伯语，每个数据集都携带有半结构化的银行交易信息，并侧重展示从英语到阿拉伯语的知识传递。通过仅使用 30 个标记样本，我们的模型可以将商家、金额和其他字段的识别从英语推广到阿拉伯语。我们的实验表明，在低资源语言的少量标记样本的情况下，学习在英语中识别实体就足以在低资源语言中达到合理的性能。该提出的框架对于开发多语言应用程序，尤其是在数字化努力依赖英语和一种或多种低资源语言的地理区域具有重要意义，有时与英语混合使用或独立使用。

Abstract

We propose an efficient modeling framework for cross-lingual named entity recognition in semi-structured text data. Our approach relies on both knowledge distillation and consistency training. The modeling framew

cross-lingual named entity recognition knowledge distillation consistency training semi-structured text data low-resource language

发现论文，激发创造

跨语言命名实体识别的增强迭代知识蒸馏

本文描述了微软在交叉语种命名实体识别中的新实践方法，使用源语种的标注数据和目标语种的无标注数据，采用半监督学习和强化学习的方法来提取弱监督信号并实现了新的最先进性能优于现有的模型。

Jun, 2021

零资源跨语言命名实体识别

本文提出一种基于词级对抗训练、参数共享和特征增强的无监督跨语言命名实体识别模型，可在不依靠双语词典或平行数据的情况下，将命名实体知识从一种语言转移到另一种语言。通过对五种不同语言的实验表明，该模型的有效性优于现有模型，并为每个语言对设置了新的 SOTA。

Nov, 2019

使用平行语料库的跨语言命名实体识别：一种使用 XLM-RoBERTa 对齐的新方法

本文针对跨语言 NER 任务，提出了一种基于平行语料库的名词实体对齐模型，并在没有监督模型的情况下将 NER 从英语部分传递到目标语言中，以此获得更自然流畅和细微差别的数据集来提高模型性能，在 4 种目标语言的基准数据集上得到了具有竞争力的结果。

Jan, 2021

具有最少资源的神经跨语言命名实体识别

提出了一种基于双语单词嵌入的翻译方法，以改善跨语言的 named-entity recognition 性能，并使用 self-attention 来提高鲁棒性。在对常见语言的测试中达到了最先进或具有竞争力的 NER 性能。

Aug, 2018

使用 BERT 实现通用语言命名实体识别

本文研究了一种基于多语言 BERT 的单一命名实体识别模型，使用多任务学习和分块更新规则等正则化策略优化模型，并证明在多种语言数据集上表现优于专注于单一语言模型，并能够进行零样本预测。

Nov, 2019

跨语言、字符级别的低资源命名实体识别的神经条件随机场

通过字符级神经 CRF 模型进行跨多个语言的命名实体识别的迁移学习，使得在资源丰富和资源匮乏的语言中都能提高 F1 分数，并在基线上提升 9.8 个点。

Apr, 2024

低资源跨语言命名实体识别的双重对比框架

本篇论文提出了一种名为 ConCNER 的新颖双重对比框架，针对有限来源语言标注数据的跨语言命名实体识别问题，通过翻译对数据进行增广，并利用对比学习和知识蒸馏的方法，提高模型的性能。

Apr, 2022

分析低资源非洲命名实体识别中的跨语言传递

通过研究名词实体识别任务的十种低资源语言之间的跨语言迁移学习，我们发现自适应微调和迁移语言的选择对零射击迁移性能有何影响，发现在个别语言性能和在其他语言上的概括之间存在权衡，同时源数据集和目标数据集之间的数据重叠程度是预测迁移性能的更好指标，而不是语言之间的地理或遗传距离。

Sep, 2023

基于元学习技术的极少资源跨语言命名实体识别增强模型

本文提出了一种元学习方法，通过细调源语言模型，结合相似示例中所传达的结构和语义信息来增强目标语言的命名实体识别。在五种目标语言上的实验表明，该方法显著优于现有的最先进方法。

Nov, 2019

通过翻译和注解融合实现更好的低资源实体识别

使用 TransFusion 模型将低资源语言的文本翻译成高资源语言进行训练及注释，再将结构融合回低资源语言，有效提升跨语言命名实体识别 (NER) 的性能。

May, 2023