May, 2023

LatinCy:拉丁语自然语言处理的合成训练管道

TL;DR本文介绍了 LatinCy,一组通用的、训练有素的拉丁语 “核心” 工作管道,适用于自然语言处理框架 spaCy。该模型是基于大量的可用拉丁语数据训练的,包括五个拉丁通用依赖树库,可与彼此兼容的预处理。结果是,对于许多自然语言处理任务,我们得到了一组具有良好性能的拉丁语通用模型。本文描述了模型训练及其训练数据和参数化,并介绍了拥有 spaCy 模型对于拉丁语研究人员的优势。