Mar, 2024

VNLP:土耳其 NLP 包

TL;DR这篇论文介绍了 VNLP:第一个专门为土耳其语设计的完整、开源、文档齐全、轻量级、成熟的自然语言处理(NLP)工具包。该工具包包含了各种各样的工具,从最简单的任务如句子分割和文本规范化,到更高级的任务如文本和标记分类模型。VNLP 的标记分类模型基于一种称为 “Context Model” 的新型架构,既是编码器又是自回归模型。VNLP 解决的 NLP 任务包括但不限于情感分析、命名实体识别、形态分析和消歧和词性标注。此外,它还提供了预训练的词嵌入和相应的 SentencePiece Unigram 标记器。VNLP 具有开源的 GitHub 仓库、ReadtheDocs 文档、PyPi 包便于安装、Python 和命令行 API 以及一个演示页面来测试所有功能。因此,我们的主要贡献是一个完整、紧凑、易于安装和使用的土耳其语 NLP 工具包。