PyThaiNLP:Python 中的泰语自然语言处理
这篇论文介绍了 VNLP:第一个专门为土耳其语设计的完整、开源、文档齐全、轻量级、成熟的自然语言处理(NLP)工具包。该工具包包含了各种各样的工具,从最简单的任务如句子分割和文本规范化,到更高级的任务如文本和标记分类模型。VNLP 的标记分类模型基于一种称为 “Context Model” 的新型架构,既是编码器又是自回归模型。VNLP 解决的 NLP 任务包括但不限于情感分析、命名实体识别、形态分析和消歧和词性标注。此外,它还提供了预训练的词嵌入和相应的 SentencePiece Unigram 标记器。VNLP 具有开源的 GitHub 仓库、ReadtheDocs 文档、PyPi 包便于安装、Python 和命令行 API 以及一个演示页面来测试所有功能。因此,我们的主要贡献是一个完整、紧凑、易于安装和使用的土耳其语 NLP 工具包。
Mar, 2024
BNLP 是一款面向孟加拉语的开源自然语言处理工具包,提供标记化、词嵌入、词性标注和命名实体识别等预训练模型,具有高精度,广受本土研究社区的欢迎。
Jan, 2021
介绍 iNLTK—— 这是一种开放源代码的 NLP 库,由 13 种印度语言中已经预训练好的语言模型,并提供数据增强、文本相似性、句子嵌入、词嵌入、分词和文本生成的支持。通过在公开数据集上使用 iNLTK 的预训练模型进行文本分类,我们表现优于以前的结果,并且通过在 iNLTK 中使用预训练模型和数据增强,我们可以在使用不到 10% 的训练数据的情况下达到先前最佳表现的 95% 以上。iNLTK 已广泛被社区使用,并在 GitHub 上有 40000 + 下载,600 + 星号和 100 + 叉子。
Sep, 2020
LexNLP 是一个面向法律和监管文本的自然语言处理和机器学习的开源 Python 包,提供文档分析、信息识别、实体提取、特征转换、无监督 / 监督模型构建等多个功能,其中包含 18 种结构化信息提取以及预训练模型,并可适用于学术研究和工业应用。
Jun, 2018
mahaNLP 是一个针对马拉地语开发的开源自然语言处理(NLP)库,旨在增强 NLP 领域中对资源匮乏的印度语言马拉地的支持,它是一个易于使用、可扩展和模块化的工具包,基于最先进的 MahaBERT-based transformer 模型进行马拉地文本分析。
Nov, 2023
EasyNLP 是一个支持大规模预训练模型的统一框架,支持多种 NLP 算法,并在阿里巴巴集团的多个业务单元中得到了成功应用和集成。
Apr, 2022
TweetNLP 是一个支持社交媒体中自然语言处理任务(包括情感分析、实体识别、表情预测和辱骂识别)的综合平台,其采用基于 Transformer 的语言模型,专门用于处理社交媒体文本,提供 Python 库、在线演示和教程等多种支持。
Jun, 2022
NLTK 是一套自然语言处理的开源程序模块,提供现成的计算语言学课程内容,包括符号和统计自然语言处理,并与标注语料库接口。学生可以通过示例来学习结构化编程,增强和替换现有组件,并从一开始就操作复杂的模型。
May, 2002
我们首次提出了名为 PhoNLP 的多任务学习模型,可用于联合越南文词性标注、命名实体识别和依存分析,并在越南基准数据集上表现出优秀的效果。我们将 PhoNLP 开源发布作为一个工具包,可直接应用于其他语言的研究和应用中。
Jan, 2021
VnCoreNLP 是一个易于使用且快速的开源 Java 自然语言处理工具包,支持越南语分词、词性标注、命名实体识别和依存句法分析,可以提供丰富的语言学注释来促进关于越南语自然语言处理的研究工作。
Jan, 2018