BNLP: 孟加拉语自然语言处理工具包
介绍 iNLTK—— 这是一种开放源代码的 NLP 库,由 13 种印度语言中已经预训练好的语言模型,并提供数据增强、文本相似性、句子嵌入、词嵌入、分词和文本生成的支持。通过在公开数据集上使用 iNLTK 的预训练模型进行文本分类,我们表现优于以前的结果,并且通过在 iNLTK 中使用预训练模型和数据增强,我们可以在使用不到 10% 的训练数据的情况下达到先前最佳表现的 95% 以上。iNLTK 已广泛被社区使用,并在 GitHub 上有 40000 + 下载,600 + 星号和 100 + 叉子。
Sep, 2020
mahaNLP 是一个针对马拉地语开发的开源自然语言处理(NLP)库,旨在增强 NLP 领域中对资源匮乏的印度语言马拉地的支持,它是一个易于使用、可扩展和模块化的工具包,基于最先进的 MahaBERT-based transformer 模型进行马拉地文本分析。
Nov, 2023
评估大型语言模型(LLMs)在低资源语言中的性能,结果显示 LLMs 在各种孟加拉语 NLP 任务中表现不佳,呼吁进一步努力以提高对像孟加拉语这样的低资源语言的 LLMs 的理解
Sep, 2023
这篇论文使用基于 Transformer 的架构进行情感分析,以解决 Bangla 这种低资源语言的问题,并通过细调模型在推特数据上获得最佳性能。同时,还进行了详细的错误分析。
Oct, 2023
本文讨论了 nlpBDpatriots 参加首届与 EMNLP 合作举办的 Bangla 语言处理(BLP)研讨会上共享任务的社交媒体帖子情感分析。我们使用孟加拉语数据集,该数据集由共享任务组织者提供,并注有积极、中性和消极标签,旨在确定社交媒体内容的极性。我们最好的系统是数据增强的迁移学习方法,其 micro F1 分数达到 0.71。在参加比赛的 30 支球队中,我们的最好系统排名第 12 位。
Nov, 2023
介绍了 BanglaBERT 模型,它是在一种 NLP 文献中被广泛使用但语料库有限的低资源语言 - 孟加拉语上进行预训练的 BERT-based NLU 模型。通过对 110 个流行的孟加拉网站进行爬取,作者们收集了 27.5 GB 的 Bangla2B+ 语料库。在多项不同的 NLU 任务中,BanglaBERT 均取得了最好的效果,同时也将这些任务纳入了首个 Bangla Language Understanding Benchmark (BLUB)。模型、数据集和排行榜已公开,为孟加拉自然语言处理的进一步发展做出了贡献。
Jan, 2021
本文提出 BanglaNLG,用于评估 Bangla 自然语言生成(NLG)模型的全面基准,并介绍了六个具有挑战性的条件文本生成任务和一个新的对话生成数据集。利用 27.5 GB 干净的 Bangla 数据集,预训练了 BanglaT5,一种面向 Bangla 的序列到序列 Transformer 语言模型。 BanglaT5 在所有任务中均达到最先进的性能,比多语言模型高出 9%的绝对收益和 32%的相对收益。我们将新的对话数据集和 BanglaT5 模型公开发布,以期推动未来的 Bangla NLG 研究。
May, 2022
本文介绍了神经网络基础工具集 NNVLP,主要用于越南语言处理任务,包括词性标注、分块、命名实体识别。该工具集使用双向长短期记忆网络,卷积神经网络,条件随机场,并使用预训练的词嵌入作为输入,取得了这三个任务的最新成果。我们提供了 API 和 Web 演示。
Aug, 2017
本文提出了一种新方法来构建可用于商业助手的孟加拉语聊天机器人,以高度自信地使用孟加拉语和孟加拉语在英语翻译中进行交流,使用 Rasa Open Source Framework,fastText embeddings,Polyglot embeddings,Flask 和其他系统作为构建块进行机器学习建模和部署,并呈现出意图分类和实体抽取的流程,其表现合理 。
Jul, 2021
通过综合评估,本研究在低资源语言(如孟加拉语)的自然语言推理任务中评估了知名大型语言模型和最先进模型的性能,发现虽然大型语言模型在少样本情况下可以达到与微调后最先进模型相媲美或优越的性能,但需要进一步研究来提高我们对大型语言模型在类似孟加拉语等资源有限的语言中的理解。该研究强调了在不同语言环境中探索大型语言模型能力的持续努力的重要性。
May, 2024