CMULAB：一个用于训练和部署自然语言处理模型的开源框架

Apr, 2024

CMULAB：一个用于训练和部署自然语言处理模型的开源框架

CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models

Zaid Sheikh, Antonios Anastasopoulos, Shruti Rijhwani, Lindia Tjuatja, Robbie Jimerson...

TL;DR使用自然语言处理工具需了解语言本身、熟悉最新模型和训练方法，并具备部署这些模型的技术能力。本文介绍了 CMU 语言注释后端，一个开源框架，简化了模型部署和连续的人机交互微调过程，使语言社区成员和语言学家能够使用自然语言处理工具。CMULAB 可以让用户快速适应和扩展现有的语音识别、OCR、翻译和句法分析工具，即使训练数据有限。我们描述了目前可用的各种工具和 API，以及开发人员如何轻松地将新模型 / 功能添加到该框架中。

Abstract

Effectively using natural language processing (NLP) tools in under-resourced languages requires a thorough understanding of the language itself, familiarity with the latest models and training methodologies, and technical expertise to deploy these models. This could present a significa

natural language processing under-resourced languages cmu linguistic annotation backend model deployment multilingual models

发现论文，激发创造

calamanCy: 一个 Tagalog 自然语言处理工具包

我们介绍了 calamanCy，这是一个用于构建 Tagalog 自然语言处理 (NLP) 流水线的开源工具包。它建立在 spaCy 之上，可以方便地进行实验和与其他框架的集成。calamanCy 通过提供一致的 API 来构建 NLP 应用程序，并提供具备依赖解析、词性标注和命名实体识别等功能的通用多任务模型，填补了开发领域的空白。calamanCy 旨在通过在一个统一的框架中整合分散的资源，加速 Tagalog NLP 的进展。可以在 GitHub 上获取 calamanCy 工具包：this https URL

Nov, 2023

EduNLP: 教育资源的统一模块化库

教育资源理解对于在线学习平台至关重要，该研究旨在开发出一种统一、模块化、广泛应用的库（EduNLP），以实现有效且易于使用的自然语言处理工具，以促进人工智能教育相关研究和应用。

Jun, 2024

HugNLP: 一个统一全面的自然语言处理库

通过 HuggingFace Transformers 设计的 HugNLP 统一和全面地涵盖了自然语言处理的库，包含模型、处理器和应用层次结构，支持在不同的 NLP 任务上预训练语言模型的学习过程，并且还提供了一些特色的 NLP 应用程序，如知识增强的 PLMs、通用信息提取、低资源挖掘和代码理解和生成，等等。

Feb, 2023

CALM: 连续适应学习的语言建模

该研究论文提出了 CALM 技术，通过对大型语言表示模型进行连续自适应学习，使其跨领域保留知识，并在生物医学和临床领域的实验中展示了任务特定模型与 CALM 模型性能差距的减小。

Apr, 2020

可组合 NLP 工作流的数据中心框架

本文介绍了一个能够支持自然语言处理工作流的开源框架，该框架包含了一个统一的数据表示方法和一个包含处理器、可视化和注释的大型处理库，提供了简单组装和互操作性，并能够轻松扩展以接入其他自然语言和深度学习库。

Mar, 2021

玉兰：一个开源的大型语言模型

该论文介绍了 YuLan 的开发，这是一系列具有 120 亿参数的开源 LLMs，其基础模型在多样化语料库中进行了预训练，并采用了三阶段预训练方法以提高整体能力。通过使用大量高质量合成数据，结合指导调整和人工对齐的后续训练阶段，以及跨这些阶段的课程学习框架来促进复杂和长尾知识的学习，YuLan 已在各种英文和中文基准测试中达到与最先进 LLMs 相媲美的性能。

Jun, 2024

LLMeBench：一款加速 LLM 基准测试的灵活框架

近期大型语言模型（LLMs）的发展和成功需要对其在不同语言的各种 NLP 任务中的性能进行评估。本研究介绍了 LLMeBench 框架，该框架最初是为了使用 OpenAI 的 GPT 和 BLOOM 模型评估阿拉伯语 NLP 任务而开发的，但它可以轻松地定制任何 NLP 任务和模型，无论语言如何。该框架还具有零样本学习和少样本学习的设置。用户可以在不到 10 分钟的时间内添加新的自定义数据集，并使用自己的模型 API 密钥评估所需的任务。该框架已经在 31 个独特的 NLP 任务中进行了测试，涉及 53 个公开可用的数据集和大约 296K 个数据点的 90 个实验设置。我们计划将该框架开源给社区。在线上有演示视频供观看。

Aug, 2023

Ling-CL: 通过语言学教学计划理解 NLP 模型

通过分析多个基准 NLP 数据集，我们的课程学习方法识别到了一系列语言度量（指标），这些指标揭示了每个任务所需的挑战和推理，从而使得我们的工作在所有 NLP 领域中提供了未来研究的参考，并且在研究开发过程中早期考虑了语言复杂性。此外，我们的工作促使 NLP 领域对黄金标准和公平评估进行审视。

Oct, 2023

EasyNLP：一款全面且易于使用的自然语言处理工具包

EasyNLP 是一个支持大规模预训练模型的统一框架，支持多种 NLP 算法，并在阿里巴巴集团的多个业务单元中得到了成功应用和集成。

Apr, 2022

GreenPLM: 几乎无成本的跨语言预训练语言模型转换

本研究提出了一种基于双语词典的能效框架 GreenPLM，将一种语言模型直接翻译到其他语言，以促进 NLP 研究中所有语言使用者的机会均等和减少能源消耗。18 种语言的验证结果表明，该框架相较其他有高成本的启发式算法的性能优越，并且在低计算成本下表现良好。

Nov, 2022