mahaNLP：一个马拉地文自然语言处理库

ACLNov, 2023

mahaNLP：一个马拉地文自然语言处理库

mahaNLP: A Marathi Natural Language Processing Library

Vidula Magdum, Omkar Dhekane, Sharayu Hiwarkhedkar, Saloni Mittal, Raviraj Joshi

TL;DRmahaNLP 是一个针对马拉地语开发的开源自然语言处理（NLP）库，旨在增强 NLP 领域中对资源匮乏的印度语言马拉地的支持，它是一个易于使用、可扩展和模块化的工具包，基于最先进的 MahaBERT-based transformer 模型进行马拉地文本分析。

Abstract

We present mahanlp, an open-source natural language processing (NLP) library specifically built for the marathi language. It aims to enhance the support for the low-resource →

mahanlp marathi language nlp library mahabert-based transformer models indian language

发现论文，激发创造

L3Cube-MahaNLP: 马拉地语自然语言处理数据集、模型和库

L3Cube-MahaNLP 旨在为印度第三流行的马拉地语构建 NLP 资源和库。该论文提出了针对情感分析、实体识别和仇恨言论检测的数据集和变形器模型，并发布了一个单语马拉地语语料库。作者的目标是为马拉地语准备有用的资源，并提供 MahaCorpus、MahaSent、MahaNER 和 MahaHate 数据集及其相应的 MahaBERT 模型。

May, 2022

L3Cube-MahaCorpus 和 MahaBERT：马拉提语单语语料库、马拉提 BERT 语言模型和资源

该研究介绍了 L3Cube-MahaCorpus，这是一个从不同互联网来源抓取的马拉提语单语数据集，它包含 24.8M 句子和 289M 个记号。该研究基于这个数据集训练了多个模型，如 MahaBERT、MahaAlBERT、MahaRoBerta 和 MahaFT 等，并且展示了它们在下游任务中的有效性。这项工作是为了为马拉提语的开放资源建立一步。

Feb, 2022

L3Cube-MahaNER: 一个马拉地语的命名实体识别数据集和 BERT 模型

本文首次提出 L3Cube-MahaNER，这是一份 Marathi 语言的命名实体识别的黄金标准数据集，使用了不同基于 CNN、LSTM、变压器的模型进行了基准测试，发现 MahaBERT 表现最佳。

Apr, 2022

BNLP: 孟加拉语自然语言处理工具包

BNLP 是一款面向孟加拉语的开源自然语言处理工具包，提供标记化、词嵌入、词性标注和命名实体识别等预训练模型，具有高精度，广受本土研究社区的欢迎。

Jan, 2021

印地文文本分类的深度学习比较

本研究旨在调查各种深度学习架构在印地语文本分类任务中的应用。本文使用了卷积神经网络（CNN）、长短时记忆网络（LSTM）、注意力机制等模型，比较了多语言预训练句子嵌入（BERT 和 LASER）和传统翻译方法的优劣，也为流行的文本分类技术提供了教程。

Jan, 2020

iNLTK：印度语自然语言工具包

介绍 iNLTK—— 这是一种开放源代码的 NLP 库，由 13 种印度语言中已经预训练好的语言模型，并提供数据增强、文本相似性、句子嵌入、词嵌入、分词和文本生成的支持。通过在公开数据集上使用 iNLTK 的预训练模型进行文本分类，我们表现优于以前的结果，并且通过在 iNLTK 中使用预训练模型和数据增强，我们可以在使用不到 10% 的训练数据的情况下达到先前最佳表现的 95% 以上。iNLTK 已广泛被社区使用，并在 GitHub 上有 40000 + 下载，600 + 星号和 100 + 叉子。

Sep, 2020

HugNLP: 一个统一全面的自然语言处理库

通过 HuggingFace Transformers 设计的 HugNLP 统一和全面地涵盖了自然语言处理的库，包含模型、处理器和应用层次结构，支持在不同的 NLP 任务上预训练语言模型的学习过程，并且还提供了一些特色的 NLP 应用程序，如知识增强的 PLMs、通用信息提取、低资源挖掘和代码理解和生成，等等。

Feb, 2023

SanskritShala：基于神经网络的梵文自然语言处理工具集，带有面向教学和标注目的的基于 Web 的界面

SanskritShala 是一个基于神经网络的梵语自然语言处理工具包，包括词语切分、形态标注、依存解析、复合词类型识别等多个模块，并且具有易于使用的交互式数据注释功能，公开发布其源代码和 7 个词嵌入模型，能够对词嵌入的内在特性如相似度、相关性、分类以及类比预测进行评估，是一个具有网络接口的全新工具包。

Feb, 2023

汉迪语和马拉提语命名实体识别中的单语 BERT 与多语 BERT 对比研究

本文研究低资源印度语言 Hindi 和 Marathi 的命名实体识别 (NER)，使用 base-BERT，RoBERTa 和 AlBERT 等变体进行了基准测试，并在不同单语和多语 Transformer 模型之间进行了详细比较，发现 MahaRoBERTa 单语模型在 Marathi NER 方面表现最佳，而多语言 XLM-RoBERTa 在 Hindi NER 方面表现最佳。文中还进行了跨语言评估和提出了简单基线。

Mar, 2022

马拉地语中仇恨言论检测和文本分类的单语和多语 BERT 案例研究

在本文中，我们使用 Marathi 语言的标准多语言模型和单语模型比较分析，通过五种不同的下游任务微调实验证明了单语 MahaBERT 模型的性能比多语言 BERT 变体更好。同时，我们还评估了来自这些模型的句子嵌入。

Apr, 2022