ACLMar, 2022

检测西班牙语中的未同化借词:一个带注释的语料库和建模方法

TL;DR本研究提供了一种新的借词识别资源,并分析了几种模型在此任务上的性能和错误。我们介绍了一个新的西班牙新闻语料库,其中包含 370,000 个标记,用于评估几种序列标记模型(CRF,BiLSTM-CRF 和基于 Transformer 的模型)的表现。我们的结果表明,一个 BiLSTM-CRF 模型配合子词嵌入,以及预先训练对话切换数据的 Transformer-based 嵌入或一个上下文化词嵌入的组合胜过多语种 BERT-based 模型得到的结果。