Jun, 2024

捷克形态句法分析的开源网络服务与形态字典增强的深度学习

TL;DR我们提供了一个开源网络服务,该服务用于捷克形态句法分析。该系统将深度学习模型与高精度形态词典的重评分相结合,在推理时能够显示超过两个竞争基准:深度学习模型确保了对于未在词汇表中的词汇的泛化和更好的消歧能力,从而优于现有的形态分析器 MorphoDiTa;同时,深度学习模型通过推理时利用手动精心编辑的形态词典来获益。相较于 MorphoDiTa,我们在词干化方面的误差减少了 50%,在词性标记方面的误差减少了 58%,同时还提供了依赖性分析。该模型是在目前最大的捷克形态句法语料库 PDT-C 1.0 上进行训练的,训练后的模型可以在此 https URL 上获取。我们将该工具提供为一个网络服务部署在此 https URL 上。源代码可以在 GitHub(此 https URL)上找到,配有用于简单使用的 Python 客户端。模型的文档可以在此 https URL 找到。