ACLMay, 2022

BanglaNLG 和 BanglaT5:用于评估孟加拉低资源自然语言生成的基准和资源

TL;DR本文提出 BanglaNLG,用于评估 Bangla 自然语言生成(NLG)模型的全面基准,并介绍了六个具有挑战性的条件文本生成任务和一个新的对话生成数据集。利用 27.5 GB 干净的 Bangla 数据集,预训练了 BanglaT5,一种面向 Bangla 的序列到序列 Transformer 语言模型。 BanglaT5 在所有任务中均达到最先进的性能,比多语言模型高出 9%的绝对收益和 32%的相对收益。我们将新的对话数据集和 BanglaT5 模型公开发布,以期推动未来的 Bangla NLG 研究。