利用非说话者注释构建低资源命名实体识别模型
该研究探讨了在资源匮乏的语言中高效创建高质量实体识别器的最有效方法,通过运用跨语言转移、有针对性注释同属于两种策略的方法,实现在小数据集下快速精确识别实体的结果。
Aug, 2019
本文提出一种基于词级对抗训练、参数共享和特征增强的无监督跨语言命名实体识别模型,可在不依靠双语词典或平行数据的情况下,将命名实体知识从一种语言转移到另一种语言。通过对五种不同语言的实验表明,该模型的有效性优于现有模型,并为每个语言对设置了新的 SOTA。
Nov, 2019
提出了一种基于双语单词嵌入的翻译方法,以改善跨语言的 named-entity recognition 性能,并使用 self-attention 来提高鲁棒性。在对常见语言的测试中达到了最先进或具有竞争力的 NER 性能。
Aug, 2018
本文提出两种弱监督的跨语言实体标识方法,分别基于注释投影和词嵌入,无需使用目标语言的人工注释数据。同时,我们设计了两种协同解码方案,将两个基于投影的方法的输出相结合,评估表明这种组合性的方法优于其他三种弱监督方法。
Jul, 2017
通过利用英印平行语料库和英文命名实体识别数据集,在低资源背景下,提出了一种用于印度语言的命名实体识别端到端框架。该框架包括一种注释投影方法,利用源语言(英语)数据上的单词对齐分数和命名实体识别标记预测置信度得分生成目标印度语言中的弱标签数据,并在 Teacher-Student 模型的伪标签以及对生成的弱标签数据的预测上联合优化。对三种印度语言(印地语、孟加拉语和古吉拉特语)的手动注释测试集进行了评估。实证结果显示,在所有语言上,与零 - shot 迁移学习模型相比,所提出的框架表现出至少 10%的性能提升,这表明生成的目标印度语言中的弱标签数据可以很好地补充已经有良好注释的源语言数据来提高性能。
Nov, 2021
论文探究了如何在低资源语言如印地语和马拉地语中通过适应 BERT 模型,训练监督学习的 NER 模型,并比较了多语言模型与单语言模型的性能,研究结果表明多语言模型可以提高 NER 的精度。
Jun, 2023
该研究介绍了 MSNER,一个多语种语音语料库,用于命名实体识别,并提供了用于训练、验证和评估的数据集,同时推出了一个高效的标注工具。
May, 2024
本文描述了微软在交叉语种命名实体识别中的新实践方法,使用源语种的标注数据和目标语种的无标注数据,采用半监督学习和强化学习的方法来提取弱监督信号并实现了新的最先进性能优于现有的模型。
Jun, 2021
对印尼本土语言进行案例研究的结果表明,原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质,有助于推广自然语言处理技术到较少研究的语言领域。
Sep, 2023
研究了使用部分标记数据进行命名实体识别的问题,用迭代算法通过识别假负标签减小其权值,训练带有偏重的 NER 模型,取得 8 种语言的实验结果,并在孟加拉语 NER 语料库中比现有最优算法提高 5 个百分点的 F1 分数。
Sep, 2019