BNLP: 孟加拉语自然语言处理工具包

Jan, 2021

BNLP: 孟加拉语自然语言处理工具包

BNLP: Natural language processing toolkit for Bengali language

Sagor Sarker

TL;DRBNLP 是一款面向孟加拉语的开源自然语言处理工具包，提供标记化、词嵌入、词性标注和命名实体识别等预训练模型，具有高精度，广受本土研究社区的欢迎。

Abstract

bnlp is an open source language processing toolkit for bengali language consisting with tokenization, word embedding, POS tagging,

bnlp bengali language language processing pre-trained model ner tagging

发现论文，激发创造

iNLTK：印度语自然语言工具包

介绍 iNLTK—— 这是一种开放源代码的 NLP 库，由 13 种印度语言中已经预训练好的语言模型，并提供数据增强、文本相似性、句子嵌入、词嵌入、分词和文本生成的支持。通过在公开数据集上使用 iNLTK 的预训练模型进行文本分类，我们表现优于以前的结果，并且通过在 iNLTK 中使用预训练模型和数据增强，我们可以在使用不到 10% 的训练数据的情况下达到先前最佳表现的 95% 以上。iNLTK 已广泛被社区使用，并在 GitHub 上有 40000 + 下载，600 + 星号和 100 + 叉子。

Sep, 2020

mahaNLP：一个马拉地文自然语言处理库

mahaNLP 是一个针对马拉地语开发的开源自然语言处理（NLP）库，旨在增强 NLP 领域中对资源匮乏的印度语言马拉地的支持，它是一个易于使用、可扩展和模块化的工具包，基于最先进的 MahaBERT-based transformer 模型进行马拉地文本分析。

Nov, 2023

BenLLMEval：对孟加拉自然语言处理中大型语言模型的潜力和陷阱进行全面评估

评估大型语言模型（LLMs）在低资源语言中的性能，结果显示 LLMs 在各种孟加拉语 NLP 任务中表现不佳，呼吁进一步努力以提高对像孟加拉语这样的低资源语言的 LLMs 的理解

Sep, 2023

BanglaNLP 参与 BLP-2023 任务 2：对孟加拉社交媒体帖子的情感分析进行不同 Transformer 模型的基准测试

这篇论文使用基于 Transformer 的架构进行情感分析，以解决 Bangla 这种低资源语言的问题，并通过细调模型在推特数据上获得最佳性能。同时，还进行了详细的错误分析。

Oct, 2023

nlpBDpatriots 在 BLP-2023 任务 2 中的应用：孟加拉情感分析的迁移学习方法

本文讨论了 nlpBDpatriots 参加首届与 EMNLP 合作举办的 Bangla 语言处理（BLP）研讨会上共享任务的社交媒体帖子情感分析。我们使用孟加拉语数据集，该数据集由共享任务组织者提供，并注有积极、中性和消极标签，旨在确定社交媒体内容的极性。我们最好的系统是数据增强的迁移学习方法，其 micro F1 分数达到 0.71。在参加比赛的 30 支球队中，我们的最好系统排名第 12 位。

Nov, 2023

BanglaBERT: 低资源语言理解评价的语言模型预训练和基准测试 —— 以孟加拉语为例

介绍了 BanglaBERT 模型，它是在一种 NLP 文献中被广泛使用但语料库有限的低资源语言 - 孟加拉语上进行预训练的 BERT-based NLU 模型。通过对 110 个流行的孟加拉网站进行爬取，作者们收集了 27.5 GB 的 Bangla2B+ 语料库。在多项不同的 NLU 任务中，BanglaBERT 均取得了最好的效果，同时也将这些任务纳入了首个 Bangla Language Understanding Benchmark (BLUB)。模型、数据集和排行榜已公开，为孟加拉自然语言处理的进一步发展做出了贡献。

Jan, 2021

BanglaNLG 和 BanglaT5：用于评估孟加拉低资源自然语言生成的基准和资源

本文提出 BanglaNLG，用于评估 Bangla 自然语言生成（NLG）模型的全面基准，并介绍了六个具有挑战性的条件文本生成任务和一个新的对话生成数据集。利用 27.5 GB 干净的 Bangla 数据集，预训练了 BanglaT5，一种面向 Bangla 的序列到序列 Transformer 语言模型。 BanglaT5 在所有任务中均达到最先进的性能，比多语言模型高出 9％的绝对收益和 32％的相对收益。我们将新的对话数据集和 BanglaT5 模型公开发布，以期推动未来的 Bangla NLG 研究。

May, 2022

NNVLP: 基于神经网络的越南语处理工具包

本文介绍了神经网络基础工具集 NNVLP，主要用于越南语言处理任务，包括词性标注、分块、命名实体识别。该工具集使用双向长短期记忆网络，卷积神经网络，条件随机场，并使用预训练的词嵌入作为输入，取得了这三个任务的最新成果。我们提供了 API 和 Web 演示。

Aug, 2017

孟加拉会话代理的端到端自然语言理解流水线

本文提出了一种新方法来构建可用于商业助手的孟加拉语聊天机器人，以高度自信地使用孟加拉语和孟加拉语在英语翻译中进行交流，使用 Rasa Open Source Framework，fastText embeddings，Polyglot embeddings，Flask 和其他系统作为构建块进行机器学习建模和部署，并呈现出意图分类和实体抽取的流程，其表现合理。

Jul, 2021

揭示大型语言模型在 Transformer 模型之上对孟加拉语自然语言推理的优势：一项全面研究

通过综合评估，本研究在低资源语言（如孟加拉语）的自然语言推理任务中评估了知名大型语言模型和最先进模型的性能，发现虽然大型语言模型在少样本情况下可以达到与微调后最先进模型相媲美或优越的性能，但需要进一步研究来提高我们对大型语言模型在类似孟加拉语等资源有限的语言中的理解。该研究强调了在不同语言环境中探索大型语言模型能力的持续努力的重要性。

May, 2024