HuSpaCy:一种工业级匈牙利自然语言处理工具包
本文介绍了一套工业级的匈牙利文处理模型,通过平衡资源效率和准确性,实现了接近最新技术水平的性能。这些模型在 spaCy 框架中实现,并且通过对其架构进行了多项改进,扩展了 HuSpaCy 工具包。与现有的匈牙利文自然语言处理工具相比,我们的所有流程均具备基本的文本处理步骤,包括分词、句子边界检测、词性标注、形态特征标注、词形还原、依存句法分析和命名实体识别,并且高度准确且吞吐量大。我们全面评估了所提出的改进,将这些流程与最新技术的工具进行了比较,并展示了新模型在所有文本预处理步骤中具有竞争力的性能。所有实验都可以重现,并且这些流程可在许可证下免费使用。
Aug, 2023
本文描述了一个新的生物医学 / 科学文本处理工具,名为 scispaCy,它大量利用了 spaCy 库,通过两个模型包的性能表明其在多个任务和数据集上的稳健性。
Feb, 2019
我们介绍了 calamanCy,这是一个用于构建 Tagalog 自然语言处理 (NLP) 流水线的开源工具包。它建立在 spaCy 之上,可以方便地进行实验和与其他框架的集成。calamanCy 通过提供一致的 API 来构建 NLP 应用程序,并提供具备依赖解析、词性标注和命名实体识别等功能的通用多任务模型,填补了开发领域的空白。calamanCy 旨在通过在一个统一的框架中整合分散的资源,加速 Tagalog NLP 的进展。可以在 GitHub 上获取 calamanCy 工具包:this https URL
Nov, 2023
通过 HuggingFace Transformers 设计的 HugNLP 统一和全面地涵盖了自然语言处理的库,包含模型、处理器和应用层次结构,支持在不同的 NLP 任务上预训练语言模型的学习过程, 并且还提供了一些特色的 NLP 应用程序,如知识增强的 PLMs、通用信息提取、低资源挖掘和代码理解和生成,等等。
Feb, 2023
介绍了 medspaCy,这是一个基于 spaCy 框架的可扩展的、开源的临床自然语言处理(cNLP)库,它允许灵活地集成基于规则和基于机器学习的算法来适应临床文本,包括多种元素,可以满足常见的 cNLP 需求,如上下文分析和映射到标准术语。
Jun, 2021
mahaNLP 是一个针对马拉地语开发的开源自然语言处理(NLP)库,旨在增强 NLP 领域中对资源匮乏的印度语言马拉地的支持,它是一个易于使用、可扩展和模块化的工具包,基于最先进的 MahaBERT-based transformer 模型进行马拉地文本分析。
Nov, 2023
本文介绍了 LatinCy,一组通用的、训练有素的拉丁语 “核心” 工作管道,适用于自然语言处理框架 spaCy。该模型是基于大量的可用拉丁语数据训练的,包括五个拉丁通用依赖树库,可与彼此兼容的预处理。结果是,对于许多自然语言处理任务,我们得到了一组具有良好性能的拉丁语通用模型。本文描述了模型训练及其训练数据和参数化,并介绍了拥有 spaCy 模型对于拉丁语研究人员的优势。
May, 2023
本文介绍了一个能够支持自然语言处理工作流的开源框架,该框架包含了一个统一的数据表示方法和一个包含处理器、可视化和注释的大型处理库,提供了简单组装和互操作性,并能够轻松扩展以接入其他自然语言和深度学习库。
Mar, 2021
提出了一种能够适用于多种自然语言处理任务(包括词性标注、Chunking、命名实体识别和语义角色标注)的统一神经网络架构和学习算法,该系统可以通过学习大量无标注训练数据的内部表示,避免任务特定的工程方法,并构建一个具有良好性能和最小计算要求的可用标记系统。
Mar, 2011