HuSpaCy：一种工业级匈牙利自然语言处理工具包

MMJan, 2022

HuSpaCy：一种工业级匈牙利自然语言处理工具包

HuSpaCy: an industrial-strength Hungarian natural language processing toolkit

György Orosz, Zsolt Szántó, Péter Berkecz, Gergő Szabó, Richárd Farkas

TL;DR本篇论文介绍了 HuSpaCy，这是一个针对匈牙利语的工业级自然语言处理工具包，包括词干提取、形态句法分析、实体识别和词嵌入等组件，并以 spaCy 的 NLP 组件为基础构建，能够高效而准确地完成文本处理任务。

Abstract

Although there are a couple of open-source language processing pipelines available for hungarian, none of them satisfies the requirements of today's →

language processing hungarian nlp toolkit huspacy

发现论文，激发创造

优化匈牙利文本处理：高效准确的 NLP 流程

本文介绍了一套工业级的匈牙利文处理模型，通过平衡资源效率和准确性，实现了接近最新技术水平的性能。这些模型在 spaCy 框架中实现，并且通过对其架构进行了多项改进，扩展了 HuSpaCy 工具包。与现有的匈牙利文自然语言处理工具相比，我们的所有流程均具备基本的文本处理步骤，包括分词、句子边界检测、词性标注、形态特征标注、词形还原、依存句法分析和命名实体识别，并且高度准确且吞吐量大。我们全面评估了所提出的改进，将这些流程与最新技术的工具进行了比较，并展示了新模型在所有文本预处理步骤中具有竞争力的性能。所有实验都可以重现，并且这些流程可在许可证下免费使用。

Aug, 2023

HuSpaCy 中的混合还原

本文提出了一种混合词形还原器，使用神经模型、字典和手工规则的混合架构，在广泛使用的匈牙利语数据集上获得了实验结果，并发表了三种 HuSpaCy 模型。

Jun, 2023

ScispaCy：用于生物医学自然语言处理的快速和鲁棒模型

本文描述了一个新的生物医学 / 科学文本处理工具，名为 scispaCy，它大量利用了 spaCy 库，通过两个模型包的性能表明其在多个任务和数据集上的稳健性。

Feb, 2019

calamanCy: 一个 Tagalog 自然语言处理工具包

我们介绍了 calamanCy，这是一个用于构建 Tagalog 自然语言处理 (NLP) 流水线的开源工具包。它建立在 spaCy 之上，可以方便地进行实验和与其他框架的集成。calamanCy 通过提供一致的 API 来构建 NLP 应用程序，并提供具备依赖解析、词性标注和命名实体识别等功能的通用多任务模型，填补了开发领域的空白。calamanCy 旨在通过在一个统一的框架中整合分散的资源，加速 Tagalog NLP 的进展。可以在 GitHub 上获取 calamanCy 工具包：this https URL

Nov, 2023

HugNLP: 一个统一全面的自然语言处理库

通过 HuggingFace Transformers 设计的 HugNLP 统一和全面地涵盖了自然语言处理的库，包含模型、处理器和应用层次结构，支持在不同的 NLP 任务上预训练语言模型的学习过程，并且还提供了一些特色的 NLP 应用程序，如知识增强的 PLMs、通用信息提取、低资源挖掘和代码理解和生成，等等。

Feb, 2023

用 medspaCy 进入临床领域：一个新的 Python 临床文本处理工具包

介绍了 medspaCy，这是一个基于 spaCy 框架的可扩展的、开源的临床自然语言处理（cNLP）库，它允许灵活地集成基于规则和基于机器学习的算法来适应临床文本，包括多种元素，可以满足常见的 cNLP 需求，如上下文分析和映射到标准术语。

Jun, 2021

mahaNLP：一个马拉地文自然语言处理库

mahaNLP 是一个针对马拉地语开发的开源自然语言处理（NLP）库，旨在增强 NLP 领域中对资源匮乏的印度语言马拉地的支持，它是一个易于使用、可扩展和模块化的工具包，基于最先进的 MahaBERT-based transformer 模型进行马拉地文本分析。

Nov, 2023

LatinCy：拉丁语自然语言处理的合成训练管道

本文介绍了 LatinCy，一组通用的、训练有素的拉丁语 “核心” 工作管道，适用于自然语言处理框架 spaCy。该模型是基于大量的可用拉丁语数据训练的，包括五个拉丁通用依赖树库，可与彼此兼容的预处理。结果是，对于许多自然语言处理任务，我们得到了一组具有良好性能的拉丁语通用模型。本文描述了模型训练及其训练数据和参数化，并介绍了拥有 spaCy 模型对于拉丁语研究人员的优势。

May, 2023

可组合 NLP 工作流的数据中心框架

本文介绍了一个能够支持自然语言处理工作流的开源框架，该框架包含了一个统一的数据表示方法和一个包含处理器、可视化和注释的大型处理库，提供了简单组装和互操作性，并能够轻松扩展以接入其他自然语言和深度学习库。

Mar, 2021

自然语言处理（近乎）从零开始

提出了一种能够适用于多种自然语言处理任务（包括词性标注、Chunking、命名实体识别和语义角色标注）的统一神经网络架构和学习算法，该系统可以通过学习大量无标注训练数据的内部表示，避免任务特定的工程方法，并构建一个具有良好性能和最小计算要求的可用标记系统。

Mar, 2011