BanglaBERT: 低资源语言理解评价的语言模型预训练和基准测试 —— 以孟加拉语为例

ACLJan, 2021

BanglaBERT: 低资源语言理解评价的语言模型预训练和基准测试 —— 以孟加拉语为例

BanglaBERT: Language Model Pretraining and Benchmarks for Low-Resource Language Understanding Evaluation in Bangla

Abhik Bhattacharjee, Tahmid Hasan, Wasi Uddin Ahmad, Kazi Samin, Md Saiful Islam...

TL;DR介绍了 BanglaBERT 模型，它是在一种 NLP 文献中被广泛使用但语料库有限的低资源语言 - 孟加拉语上进行预训练的 BERT-based NLU 模型。通过对 110 个流行的孟加拉网站进行爬取，作者们收集了 27.5 GB 的 Bangla2B+ 语料库。在多项不同的 NLU 任务中，BanglaBERT 均取得了最好的效果，同时也将这些任务纳入了首个 Bangla Language Understanding Benchmark (BLUB)。模型、数据集和排行榜已公开，为孟加拉自然语言处理的进一步发展做出了贡献。

Abstract

In this work, we introduce banglabert, a BERT-based Natural Language Understanding (nlu) model pretrained in Bangla, a widely spoken yet low-resource language in the NLP literature. To pretrain →

banglabert nlu pretraining blub bangla nlp

发现论文，激发创造

BanglaNLG 和 BanglaT5：用于评估孟加拉低资源自然语言生成的基准和资源

本文提出 BanglaNLG，用于评估 Bangla 自然语言生成（NLG）模型的全面基准，并介绍了六个具有挑战性的条件文本生成任务和一个新的对话生成数据集。利用 27.5 GB 干净的 Bangla 数据集，预训练了 BanglaT5，一种面向 Bangla 的序列到序列 Transformer 语言模型。 BanglaT5 在所有任务中均达到最先进的性能，比多语言模型高出 9％的绝对收益和 32％的相对收益。我们将新的对话数据集和 BanglaT5 模型公开发布，以期推动未来的 Bangla NLG 研究。

May, 2022

BLP-2023 任务 2 的低资源方案：利用 BanglaBert 进行孟加拉语低资源情感分析

该研究以 BanglaBert 为基础，利用多种策略进行情感分析，并建立了一个包含三种最佳 BanglaBert 变体的集成模型，在 BLP-2023 中的排名为第三。

Nov, 2023

BanglaNLP 参与 BLP-2023 任务 2：对孟加拉社交媒体帖子的情感分析进行不同 Transformer 模型的基准测试

这篇论文使用基于 Transformer 的架构进行情感分析，以解决 Bangla 这种低资源语言的问题，并通过细调模型在推特数据上获得最佳性能。同时，还进行了详细的错误分析。

Oct, 2023

TiBERT：藏语预训练语言模型

本研究使用 Sentencepiece 从藏文网站收集大规模训练数据，并构建了一个词汇表，覆盖了语料库中 99.95％的单词，使用这些数据和词汇表训练了一个称为 TiBERT 的藏文单语言预训练语言模型，最后将 TiBERT 应用于文本分类和问题生成的下游任务，并且与传统模型和多语言预训练模型进行比较，实验结果表明 TiBERT 能够实现最佳性能。

May, 2022

BERT: 深度双向变换器的预训练用于语言理解

介绍了一种新的语言表示模型 BERT，可以通过预训练深度双向表示生成模型从未标记的文本中学习，通过微调可用于广泛的任务，包括自然语言处理。

Oct, 2018

BenLLMEval：对孟加拉自然语言处理中大型语言模型的潜力和陷阱进行全面评估

评估大型语言模型（LLMs）在低资源语言中的性能，结果显示 LLMs 在各种孟加拉语 NLP 任务中表现不佳，呼吁进一步努力以提高对像孟加拉语这样的低资源语言的 LLMs 的理解

Sep, 2023

混合 Distil-BERT：用于孟加拉语、英语和印地语的混合语言建模

该论文介绍了 Tri-Distil-BERT，一个用孟加拉语、英语和印地语进行预训练的多语言模型，以及在混合代码数据上微调的 Mixed-Distil-BERT 模型。这两个模型在多个 NLP 任务上进行评估，并展示出与更大的模型（如 mBERT 和 XLM-R）相竞争的性能。我们的两层预训练方法为多语言和混合代码语言理解提供了高效的选择，推动了该领域的进步。

Sep, 2023

IndoNLU: 评估印度尼西亚语自然语言理解的基准和资源

本研究引入了印度尼西亚自然语言理解（IndoNLU）任务的第一个巨大资源及其预训练模型 IndoBERT，包括从单句分类到对句子序列标记的 12 个任务，并提供了基准模型和评估框架以使每个人都能评估自己的系统性能。

Sep, 2020

揭示大型语言模型在 Transformer 模型之上对孟加拉语自然语言推理的优势：一项全面研究

通过综合评估，本研究在低资源语言（如孟加拉语）的自然语言推理任务中评估了知名大型语言模型和最先进模型的性能，发现虽然大型语言模型在少样本情况下可以达到与微调后最先进模型相媲美或优越的性能，但需要进一步研究来提高我们对大型语言模型在类似孟加拉语等资源有限的语言中的理解。该研究强调了在不同语言环境中探索大型语言模型能力的持续努力的重要性。

May, 2024

评估孟加拉语词汇类比

该论文提供了用于评估孟加拉语词嵌入质量的高质量数据集，该数据集对于基准测试和指导未来研究至关重要。

Apr, 2023