评估孟加拉语词汇类比

Apr, 2023

On Evaluation of Bangla Word Analogies

Mousumi Akter, Souvika Sarkar, Shubhra Kanti Karmaker

TL;DR该论文提供了用于评估孟加拉语词嵌入质量的高质量数据集，该数据集对于基准测试和指导未来研究至关重要。

Abstract

This paper presents a high-quality dataset for evaluating the quality of bangla word embeddings, which is a fundamental task in the field

bangla word embeddings nlp evaluation dataset

发现论文，激发创造

BanglaNLP 参与 BLP-2023 任务 2：对孟加拉社交媒体帖子的情感分析进行不同 Transformer 模型的基准测试

这篇论文使用基于 Transformer 的架构进行情感分析，以解决 Bangla 这种低资源语言的问题，并通过细调模型在推特数据上获得最佳性能。同时，还进行了详细的错误分析。

Oct, 2023

BanglaNLG 和 BanglaT5：用于评估孟加拉低资源自然语言生成的基准和资源

本文提出 BanglaNLG，用于评估 Bangla 自然语言生成（NLG）模型的全面基准，并介绍了六个具有挑战性的条件文本生成任务和一个新的对话生成数据集。利用 27.5 GB 干净的 Bangla 数据集，预训练了 BanglaT5，一种面向 Bangla 的序列到序列 Transformer 语言模型。 BanglaT5 在所有任务中均达到最先进的性能，比多语言模型高出 9％的绝对收益和 32％的相对收益。我们将新的对话数据集和 BanglaT5 模型公开发布，以期推动未来的 Bangla NLG 研究。

May, 2022

BenLLMEval：对孟加拉自然语言处理中大型语言模型的潜力和陷阱进行全面评估

评估大型语言模型（LLMs）在低资源语言中的性能，结果显示 LLMs 在各种孟加拉语 NLP 任务中表现不佳，呼吁进一步努力以提高对像孟加拉语这样的低资源语言的 LLMs 的理解

Sep, 2023

不再是低资源：对齐器集成、批处理过滤和新的孟加拉 - 英语机器翻译数据集

本研究利用自定义句子分段器和两种新方法，构建一个高质量的孟加拉语 - 英语双语平行语料库，从而提高孟加拉语机器翻译的 BLEU 指标，并评估了一个包含 1000 个双语句对的测试集，释放了分段器，平行语料库和评估集，为孟加拉语以及其他低资源语言的机器翻译研究铺平了道路。

Sep, 2020

跨语言检索增强上下文学习：孟加拉语

通过跨语言检索增强的方法，我们的研究论文提出了一种创新的方法，利用高资源语言中语义相似的提示来提高多语言预训练语言模型在孟加拉语任务上的性能。详细评估表明，跨语言检索增强的提示对于多语言预训练语言模型的性能有稳定的提升作用。

Nov, 2023

BanglaBERT: 低资源语言理解评价的语言模型预训练和基准测试 —— 以孟加拉语为例

介绍了 BanglaBERT 模型，它是在一种 NLP 文献中被广泛使用但语料库有限的低资源语言 - 孟加拉语上进行预训练的 BERT-based NLU 模型。通过对 110 个流行的孟加拉网站进行爬取，作者们收集了 27.5 GB 的 Bangla2B+ 语料库。在多项不同的 NLU 任务中，BanglaBERT 均取得了最好的效果，同时也将这些任务纳入了首个 Bangla Language Understanding Benchmark (BLUB)。模型、数据集和排行榜已公开，为孟加拉自然语言处理的进一步发展做出了贡献。

Jan, 2021

BanglaBook：基于图书评论的大规模孟加拉情感分析数据集

本研究旨在解决对于孟加拉语资源与跨领域适应性缺乏研究的限制，因此提出一个大规模的孟加拉语电子书评论数据集，使用各种机器学习模型分析数据，发现预训练模型比手工特征模型具有更高的性能，同时进行错误分析以提供关于在孟加拉语等欠资源语言中常见的分类错误的见解。

May, 2023

BanglaParaphrase: 一份高质量的孟加拉语释义数据集

本文介绍了 BanglaParaphrase，这是一个高质量的合成孟加拉语复述数据集，通过新的过滤管道筛选。我们旨在通过引入 BanglaParaphrase，提高孟加拉语在 NLP 领域的低资源状态，通过保留语义和多样性确保质量，并详细阐述我们的数据集和模型与其他现有作品之间的比较分析

Oct, 2022

LLM 对零样本和少样本提示的比较研究：孟加拉情感分析的微调模型

本研究通过 33,605 条孟加拉文新闻推文和 Facebook 评论创建了一个庞大的手动注释数据集，并对 Flan-T5、GPT-4 和 Bloomz 等多种语言模型进行了零指导和少量指导的上下文学习，与精细调优模型进行了比较分析。研究结果表明，在零指导和少量指导的场景下，单语言变换器模型始终优于其他模型。为了促进进一步的研究探索，我们打算向更广泛的研究社区公开提供这个数据集和我们的研究工具。

Aug, 2023

BLP-2023 任务 2 的低资源方案：利用 BanglaBert 进行孟加拉语低资源情感分析

该研究以 BanglaBert 为基础，利用多种策略进行情感分析，并建立了一个包含三种最佳 BanglaBert 变体的集成模型，在 BLP-2023 中的排名为第三。

Nov, 2023