优化匈牙利文本处理：高效准确的 NLP 流程

Aug, 2023

优化匈牙利文本处理：高效准确的 NLP 流程

Advancing Hungarian Text Processing with HuSpaCy: Efficient and Accurate NLP Pipelines

György Orosz, Gergő Szabó, Péter Berkecz, Zsolt Szántó, Richárd Farkas

TL;DR本文介绍了一套工业级的匈牙利文处理模型，通过平衡资源效率和准确性，实现了接近最新技术水平的性能。这些模型在 spaCy 框架中实现，并且通过对其架构进行了多项改进，扩展了 HuSpaCy 工具包。与现有的匈牙利文自然语言处理工具相比，我们的所有流程均具备基本的文本处理步骤，包括分词、句子边界检测、词性标注、形态特征标注、词形还原、依存句法分析和命名实体识别，并且高度准确且吞吐量大。我们全面评估了所提出的改进，将这些流程与最新技术的工具进行了比较，并展示了新模型在所有文本预处理步骤中具有竞争力的性能。所有实验都可以重现，并且这些流程可在许可证下免费使用。

Abstract

This paper presents a set of industrial-grade text processing models for hungarian that achieve near state-of-the-art performance while balancing resource efficiency and accuracy. Models have been implemented in

hungarian text processing models huspacy toolkit nlp tools state-of-the-art tools

发现论文，激发创造

HuSpaCy：一种工业级匈牙利自然语言处理工具包

本篇论文介绍了 HuSpaCy，这是一个针对匈牙利语的工业级自然语言处理工具包，包括词干提取、形态句法分析、实体识别和词嵌入等组件，并以 spaCy 的 NLP 组件为基础构建，能够高效而准确地完成文本处理任务。

Jan, 2022

HuSpaCy 中的混合还原

本文提出了一种混合词形还原器，使用神经模型、字典和手工规则的混合架构，在广泛使用的匈牙利语数据集上获得了实验结果，并发表了三种 HuSpaCy 模型。

Jun, 2023

ScispaCy：用于生物医学自然语言处理的快速和鲁棒模型

本文描述了一个新的生物医学 / 科学文本处理工具，名为 scispaCy，它大量利用了 spaCy 库，通过两个模型包的性能表明其在多个任务和数据集上的稳健性。

Feb, 2019

LatinCy：拉丁语自然语言处理的合成训练管道

本文介绍了 LatinCy，一组通用的、训练有素的拉丁语 “核心” 工作管道，适用于自然语言处理框架 spaCy。该模型是基于大量的可用拉丁语数据训练的，包括五个拉丁通用依赖树库，可与彼此兼容的预处理。结果是，对于许多自然语言处理任务，我们得到了一组具有良好性能的拉丁语通用模型。本文描述了模型训练及其训练数据和参数化，并介绍了拥有 spaCy 模型对于拉丁语研究人员的优势。

May, 2023

基于句法的数据增强在匈牙利语 - 英语机器翻译中的应用

本文介绍了使用 Hunglish2 语料库训练基于 Transformer 的神经机器翻译模型以实现匈牙利语 - 英语和英语 - 匈牙利语的翻译，最佳模型在匈牙利语 - 英语和英语 - 匈牙利语上的 BLEU 分数分别为 40.0 和 33.4。此外，本文还介绍了一项正在进行的基于语法增强的神经机器翻译工作的结果。我们提供了代码和模型的公开资源。

Jan, 2022

BERT 模型自动标点恢复

本研究利用 BERT 模型自动还原英语和匈牙利语的标点符号，并通过 Ted Talks 和 Szeged Treebank 数据集的实验验证，得出在英语和匈牙利语上分别达到了 79.8 和 82.2 的宏平均 $F_1$- 分数。

Jan, 2021

mahaNLP：一个马拉地文自然语言处理库

mahaNLP 是一个针对马拉地语开发的开源自然语言处理（NLP）库，旨在增强 NLP 领域中对资源匮乏的印度语言马拉地的支持，它是一个易于使用、可扩展和模块化的工具包，基于最先进的 MahaBERT-based transformer 模型进行马拉地文本分析。

Nov, 2023

ViHateT5：使用统一的文本转换器模型增强越南语中的仇恨言论检测

我们引入了基于 T5 架构的 ViHateT5 模型，该模型在我们提出的大规模领域特定数据集 VOZ-HSD 上进行了预训练，通过利用文本到文本架构的优势，ViHateT5 可以使用统一的模型处理多个任务，并在越南语的所有标准 HSD 基准测试中实现最先进的性能。

May, 2024

HugNLP: 一个统一全面的自然语言处理库

通过 HuggingFace Transformers 设计的 HugNLP 统一和全面地涵盖了自然语言处理的库，包含模型、处理器和应用层次结构，支持在不同的 NLP 任务上预训练语言模型的学习过程，并且还提供了一些特色的 NLP 应用程序，如知识增强的 PLMs、通用信息提取、低资源挖掘和代码理解和生成，等等。

Feb, 2023

标记化、标注和依存分析任务中的零样本学习和少样本学习方法在塔加洛语文本上的评估

该研究探讨在没有足够标记数据的情况下，使用替代语言资源来建立任务特定模型的方法，以及利用词嵌入和数据增强来改善性能，针对在语法分析方面表现不好的 Tagalog 语言进行了实验，并展示了这些零点和几点方法相比于基于监督学习的最先进方法，在领域内外的 Tagalog 文本的语法分析方面具有显著的改进。

Aug, 2022