Jun, 2024
训练太晚,使用太早?关于低资源孟加拉语 LLM 的必要性和可行性的研究
Too Late to Train, Too Early To Use? A Study on Necessity and Viability of Low-Resource Bengali LLMs
Tamzeed Mahfuz, Satak Kumar Dey, Ruwad Naswan, Hasnaen Adil, Khondker Salman Sayeed...
TL;DR当前需要面临的问题是,是否需要专门面向低资源语言的大型语言模型(LLMs)?我们通过比较英语导向的 LLMs 与细调编码解码模型在孟加拉语下游任务中的表现,发现现有 LLMs 在生成孟加拉语脚本方面面临着挑战,同时也存在着一些数据集方面的偏见,因此需要开发更高效的孟加拉语导向 LLM。