Dec, 2023

关于子词标记对于低资源和高效命名实体识别的意义:马拉地语案例研究

TL;DR我们研究了在语言资源匮乏情况下对名词实体识别(NER)系统进行改进的方法,并通过将 BERT-based 子词标记器集成到传统的 CNN/LSTM 模型中,展示了提高其准确性的有效途径。在 Marathi 这种低资源语言环境下的案例研究中,我们发现使用子词标记化对 NER 的重要性,并呈现了构建高效 NLP 系统的研究。