多语言命名实体识别中的转移来源
本研究展示如何使用维基百科和 Freebase 自动构建 40 种主要语言的多语言命名实体识别注释器,不需要任何人工标注数据集或语言特定的资源,通过生成分布式词表示,达到竞争性的表现,并提出了一种新的远程评估方法。
Oct, 2014
本文提出一种基于师生学习方法的跨语言命名实体识别学习方法,该方法能够更好地利用源语言和目标语言中的已标注和未标注数据,特别适用于多源跨语言学习,实验证明该方法在三种目标语言上均优于现有的最先进方法。
Apr, 2020
本文提出一种基于词级对抗训练、参数共享和特征增强的无监督跨语言命名实体识别模型,可在不依靠双语词典或平行数据的情况下,将命名实体知识从一种语言转移到另一种语言。通过对五种不同语言的实验表明,该模型的有效性优于现有模型,并为每个语言对设置了新的 SOTA。
Nov, 2019
本文描述了微软在交叉语种命名实体识别中的新实践方法,使用源语种的标注数据和目标语种的无标注数据,采用半监督学习和强化学习的方法来提取弱监督信号并实现了新的最先进性能优于现有的模型。
Jun, 2021
提出了一种基于双语单词嵌入的翻译方法,以改善跨语言的 named-entity recognition 性能,并使用 self-attention 来提高鲁棒性。在对常见语言的测试中达到了最先进或具有竞争力的 NER 性能。
Aug, 2018
本文研究了一种基于多语言 BERT 的单一命名实体识别模型,使用多任务学习和分块更新规则等正则化策略优化模型,并证明在多种语言数据集上表现优于专注于单一语言模型,并能够进行零样本预测。
Nov, 2019
通过研究名词实体识别任务的十种低资源语言之间的跨语言迁移学习,我们发现自适应微调和迁移语言的选择对零射击迁移性能有何影响,发现在个别语言性能和在其他语言上的概括之间存在权衡,同时源数据集和目标数据集之间的数据重叠程度是预测迁移性能的更好指标,而不是语言之间的地理或遗传距离。
Sep, 2023
本研究利用荷兰语、英语和德语之间的跨语言转移学习,使用管道和端到端(E2E)方案,利用自定义伪标注数据集的 Wav2Vec2-XLS-R 模型,研究了几种跨语言系统的适应性,结果表明,端到端的口语命名实体识别优于基于管道的替代方案。 转移学习从德语到荷兰语的效果比荷兰语 E2E 系统高 7%,比管道系统高 4%。
Jul, 2023
该研究探讨了在资源匮乏的语言中高效创建高质量实体识别器的最有效方法,通过运用跨语言转移、有针对性注释同属于两种策略的方法,实现在小数据集下快速精确识别实体的结果。
Aug, 2019
本文提出了一种称为 UniTrans 的新方法,以统一模型和数据转移,通过增强的知识蒸馏从未标记的目标语言数据中利用可用信息,对比 4 种目标语言的基准数据集表明,UniTrans 显著优于现有的最先进方法。
Jul, 2020