Nov, 2023

Vashantor:用于孟加拉区域方言自动翻译到孟加拉语的大规模多语种基准数据集

TL;DR本研究通过创建一个包含 32,500 个句子的语料库,涵盖孟加拉地区的 5 种地方性孟加拉方言,提出了一种将这些方言翻译为标准孟加拉语并准确检测来源地区的模型 mT5 和 BanglaT5。实验结果显示,孟加拉地区方言的 BLEU 得分最高为 69.06,Chittagong 地区方言的 BLEU 得分最低为 36.75,Mymensingh 地区方言的平均词错误率最低为 0.1548,Chittagong 地区方言的平均词错误率最高为 0.3385。对于地区检测,使用 Bangla-bert-base 和 mBERT 分别达到了 85.86% 和 84.36% 的准确率。该研究为孟加拉方言到孟加拉机器翻译提供了首次大规模的调查,并为解决类似资源匮乏语言环境中的语言相关挑战提供了重要参考。