Spark NLP：大规模自然语言理解

Jan, 2021

Spark NLP: Natural Language Understanding at Scale

Veysel Kocaman, David Talby

TL;DRSpark NLP 是一种基于 Apache Spark ML 的自然语言处理库，提供了简单的，高效的和准确的 NLP 注释，支持在分布式环境中轻松扩展，目前被 54％的医疗保健组织作为世界上使用最广泛的 NLP 库。

Abstract

spark nlp is a natural language processing (NLP) library built on top of Apache Spark ML. It provides simple, performant and accurate NLP annotations for →

spark nlp natural language processing machine learning distributed environment healthcare organizations

发现论文，激发创造

TweetNLP：社交媒体的前沿自然语言处理

TweetNLP 是一个支持社交媒体中自然语言处理任务（包括情感分析、实体识别、表情预测和辱骂识别）的综合平台，其采用基于 Transformer 的语言模型，专门用于处理社交媒体文本，提供 Python 库、在线演示和教程等多种支持。

Jun, 2022

EasyNLP：一款全面且易于使用的自然语言处理工具包

EasyNLP 是一个支持大规模预训练模型的统一框架，支持多种 NLP 算法，并在阿里巴巴集团的多个业务单元中得到了成功应用和集成。

Apr, 2022

HugNLP: 一个统一全面的自然语言处理库

通过 HuggingFace Transformers 设计的 HugNLP 统一和全面地涵盖了自然语言处理的库，包含模型、处理器和应用层次结构，支持在不同的 NLP 任务上预训练语言模型的学习过程，并且还提供了一些特色的 NLP 应用程序，如知识增强的 PLMs、通用信息提取、低资源挖掘和代码理解和生成，等等。

Feb, 2023

AllenNLP：一个深度语义自然语言处理平台

AllenNLP 是一个基于 PyTorch 平台的自然语言理解深度学习相关的可扩展实验框架，具有智能批量处理和填充的灵活数据 API，高层次的文本操作抽象和模块化可扩展的实验框架。

Mar, 2018

使用 Spark NLP 优化 COVID-19 研究的临床文档理解

该研究构建了一个临床文本挖掘系统，利用命名实体识别和深度学习模型优化了现有技术，能够从 COVID-19 研究数据集中提取潜在趋势和洞见，支持分布式集群计算以及新增实体类型或人类语言训练模型无需编程。

Dec, 2020

Apache Spark 中的机器学习

本文介绍了 Apache Spark 的开源分布式机器学习库 MLlib，它支持迭代的机器学习任务和端到端机器学习流程。

May, 2015

可组合 NLP 工作流的数据中心框架

本文介绍了一个能够支持自然语言处理工作流的开源框架，该框架包含了一个统一的数据表示方法和一个包含处理器、可视化和注释的大型处理库，提供了简单组装和互操作性，并能够轻松扩展以接入其他自然语言和深度学习库。

Mar, 2021

EduNLP: 教育资源的统一模块化库

教育资源理解对于在线学习平台至关重要，该研究旨在开发出一种统一、模块化、广泛应用的库（EduNLP），以实现有效且易于使用的自然语言处理工具，以促进人工智能教育相关研究和应用。

Jun, 2024

iNLTK：印度语自然语言工具包

介绍 iNLTK—— 这是一种开放源代码的 NLP 库，由 13 种印度语言中已经预训练好的语言模型，并提供数据增强、文本相似性、句子嵌入、词嵌入、分词和文本生成的支持。通过在公开数据集上使用 iNLTK 的预训练模型进行文本分类，我们表现优于以前的结果，并且通过在 iNLTK 中使用预训练模型和数据增强，我们可以在使用不到 10% 的训练数据的情况下达到先前最佳表现的 95% 以上。iNLTK 已广泛被社区使用，并在 GitHub 上有 40000 + 下载，600 + 星号和 100 + 叉子。

Sep, 2020

自然语言处理（近乎）从零开始

提出了一种能够适用于多种自然语言处理任务（包括词性标注、Chunking、命名实体识别和语义角色标注）的统一神经网络架构和学习算法，该系统可以通过学习大量无标注训练数据的内部表示，避免任务特定的工程方法，并构建一个具有良好性能和最小计算要求的可用标记系统。

Mar, 2011