Aug, 2023

优化匈牙利文本处理:高效准确的 NLP 流程

TL;DR本文介绍了一套工业级的匈牙利文处理模型,通过平衡资源效率和准确性,实现了接近最新技术水平的性能。这些模型在 spaCy 框架中实现,并且通过对其架构进行了多项改进,扩展了 HuSpaCy 工具包。与现有的匈牙利文自然语言处理工具相比,我们的所有流程均具备基本的文本处理步骤,包括分词、句子边界检测、词性标注、形态特征标注、词形还原、依存句法分析和命名实体识别,并且高度准确且吞吐量大。我们全面评估了所提出的改进,将这些流程与最新技术的工具进行了比较,并展示了新模型在所有文本预处理步骤中具有竞争力的性能。所有实验都可以重现,并且这些流程可在许可证下免费使用。