通过翻译和注解融合实现更好的低资源实体识别
该研究探讨了在资源匮乏的语言中高效创建高质量实体识别器的最有效方法,通过运用跨语言转移、有针对性注释同属于两种策略的方法,实现在小数据集下快速精确识别实体的结果。
Aug, 2019
通过使用非母语注释方法,在低资源情况下的自然语言处理中提出一种改进低资源NER模型的方法,通过实验验证该方法的有效性及优越性,可以在一定程度上替代现有的跨语言方法。
Jun, 2020
本篇论文提出了一种名为ConCNER的新颖双重对比框架,针对有限来源语言标注数据的跨语言命名实体识别问题,通过翻译对数据进行增广,并利用对比学习和知识蒸馏的方法,提高模型的性能。
Apr, 2022
本文介绍了一种基于Transformer的python库T-NER,用于命名实体识别的LM finetuning,并展示了其在跨领域和跨语言泛化方面的研究和应用潜力,同时提供了一个Web应用程序,使得非专业编程人员能够与模型进行交互,进一步促进模型质量的定性评估。研究结果表明,即使利用预训练的大型LM进行fine-tuning,跨领域泛化仍然有挑战,但与数据集的相关性更强的特定领域的性能通常具有可比性。此外,我们还通过 Hugging Face 模型沙盒发布了所有的LM checkpoints来促进未来研究。
Sep, 2022
提出了一种跨语言冷启动实体识别框架(CROP),通过多语言标记序列翻译模型,将目标序列首先翻译为源语言并由源NER模型标记,然后采用标记的序列翻译模型将标记的序列投射回目标语言并标记原始句子,最终实现了端到端模型。在两个数据集上进行的实验结果表明,该方法大大优于先前的强基线方法,并实现了最先进的性能。
Oct, 2022
论文探究了如何在低资源语言如印地语和马拉地语中通过适应BERT模型,训练监督学习的NER模型,并比较了多语言模型与单语言模型的性能,研究结果表明多语言模型可以提高NER的精度。
Jun, 2023
通过研究名词实体识别任务的十种低资源语言之间的跨语言迁移学习,我们发现自适应微调和迁移语言的选择对零射击迁移性能有何影响,发现在个别语言性能和在其他语言上的概括之间存在权衡,同时源数据集和目标数据集之间的数据重叠程度是预测迁移性能的更好指标,而不是语言之间的地理或遗传距离。
Sep, 2023
多语言语言模型(MLLMs)展现了强大的跨语言转移能力,本研究旨在调查源语言应用于目标语言的效果,特别是在扰动输入测试集的情况下,发现命名实体识别的跨语言转移主要取决于实体块的重叠,研究结果提供了宝贵的跨语言转移见解并强调了在跨不同语言时考虑语言细微差异和潜在限制的必要性。
Mar, 2024
通过字符级神经CRF模型进行跨多个语言的命名实体识别的迁移学习,使得在资源丰富和资源匮乏的语言中都能提高F1分数,并在基线上提升9.8个点。
Apr, 2024