Mar, 2023

BanglaCoNER:面向健壮的孟加拉语复杂命名实体识别

TL;DR本文介绍了在 BanglaCoNER 数据集上使用条件随机场(CRF)和微调变压器模型(如 BanglaBERT)的两种方法来解决 Bangla 复杂命名实体识别挑战的获胜解决方案。 深入探究了数据集,发现该数据集具有 7 个不同的 NER 标记,具有英语单词的明显存在,表明该数据集是合成的。同时,我们实验证明了基于深度学习的模型是自然语言处理中更有效的模型之一,特别是在 CNER 任务中。我们的 fine-tuned BanglaBERT(large)模型在验证集上实现 F1 Score 为 0.79。