Apr, 2024

HistNERo: 历史罗马尼亚语命名实体识别

TL;DR介绍了HistNERo,第一个用于历史报纸中的罗马尼亚命名实体识别(NER)的罗马尼亚语语料库,含323k个标记文本,覆盖了1817年至1990年的超过一半时间段。实验结果显示,最佳模型在此语料库上的严格F1分数达到了55.69%,通过减少地区之间的差异并使用一种新颖的领域自适应技术,我们将其提高到了66.80%,相对增益超过10%。