Jan, 2024

RoBERTurk:针对土耳其语进行 RoBERTa 的调整

TL;DR使用 BPE 分词工具,我们在土耳其语语料库上对 RoBERTa 进行预训练,模型在 BOUN 数据集上的词性标注任务中优于 BERTurk 系列模型,在 IMST 数据集上表现不佳,在土库曼语的 XTREME 数据集上的命名实体识别任务上获得竞争性的分数,且只使用了较小的预训练数据,我们公开了我们的预训练模型和分词工具。