mahaNLP:一个马拉地文自然语言处理库
L3Cube-MahaNLP 旨在为印度第三流行的马拉地语构建 NLP 资源和库。该论文提出了针对情感分析、实体识别和仇恨言论检测的数据集和变形器模型,并发布了一个单语马拉地语语料库。作者的目标是为马拉地语准备有用的资源,并提供 MahaCorpus、MahaSent、MahaNER 和 MahaHate 数据集及其相应的 MahaBERT 模型。
May, 2022
该研究介绍了 L3Cube-MahaCorpus,这是一个从不同互联网来源抓取的马拉提语单语数据集,它包含 24.8M 句子和 289M 个记号。该研究基于这个数据集训练了多个模型,如 MahaBERT、MahaAlBERT、MahaRoBerta 和 MahaFT 等,并且展示了它们在下游任务中的有效性。这项工作是为了为马拉提语的开放资源建立一步。
Feb, 2022
本文首次提出 L3Cube-MahaNER,这是一份 Marathi 语言的命名实体识别的黄金标准数据集,使用了不同基于 CNN、LSTM、变压器的模型进行了基准测试,发现 MahaBERT 表现最佳。
Apr, 2022
BNLP 是一款面向孟加拉语的开源自然语言处理工具包,提供标记化、词嵌入、词性标注和命名实体识别等预训练模型,具有高精度,广受本土研究社区的欢迎。
Jan, 2021
本研究旨在调查各种深度学习架构在印地语文本分类任务中的应用。本文使用了卷积神经网络(CNN)、长短时记忆网络(LSTM)、注意力机制等模型,比较了多语言预训练句子嵌入(BERT 和 LASER)和传统翻译方法的优劣,也为流行的文本分类技术提供了教程。
Jan, 2020
介绍 iNLTK—— 这是一种开放源代码的 NLP 库,由 13 种印度语言中已经预训练好的语言模型,并提供数据增强、文本相似性、句子嵌入、词嵌入、分词和文本生成的支持。通过在公开数据集上使用 iNLTK 的预训练模型进行文本分类,我们表现优于以前的结果,并且通过在 iNLTK 中使用预训练模型和数据增强,我们可以在使用不到 10% 的训练数据的情况下达到先前最佳表现的 95% 以上。iNLTK 已广泛被社区使用,并在 GitHub 上有 40000 + 下载,600 + 星号和 100 + 叉子。
Sep, 2020
通过 HuggingFace Transformers 设计的 HugNLP 统一和全面地涵盖了自然语言处理的库,包含模型、处理器和应用层次结构,支持在不同的 NLP 任务上预训练语言模型的学习过程, 并且还提供了一些特色的 NLP 应用程序,如知识增强的 PLMs、通用信息提取、低资源挖掘和代码理解和生成,等等。
Feb, 2023
SanskritShala 是一个基于神经网络的梵语自然语言处理工具包,包括词语切分、形态标注、依存解析、复合词类型识别等多个模块,并且具有易于使用的交互式数据注释功能,公开发布其源代码和 7 个词嵌入模型,能够对词嵌入的内在特性如相似度、相关性、分类以及类比预测进行评估,是一个具有网络接口的全新工具包。
Feb, 2023
本文研究低资源印度语言 Hindi 和 Marathi 的命名实体识别 (NER),使用 base-BERT,RoBERTa 和 AlBERT 等变体进行了基准测试,并在不同单语和多语 Transformer 模型之间进行了详细比较,发现 MahaRoBERTa 单语模型在 Marathi NER 方面表现最佳,而多语言 XLM-RoBERTa 在 Hindi NER 方面表现最佳。文中还进行了跨语言评估和提出了简单基线。
Mar, 2022
在本文中,我们使用 Marathi 语言的标准多语言模型和单语模型比较分析,通过五种不同的下游任务微调实验证明了单语 MahaBERT 模型的性能比多语言 BERT 变体更好。同时,我们还评估了来自这些模型的句子嵌入。
Apr, 2022