Jun, 2024

VAIYAKARANA:孟加拉语自动语法纠正的基准

TL;DR为缺乏巨大的语料库提供了一个实用的方法来生成孟加拉语的语法错误句子,该方法分类了孟加拉语中的不同错误类型,并从正确的句子中系统地生成错误的句子,该方法提供了一个包含 92,830 个语法错误句子和 18,426 个正确句子的数据集,该数据集还通过收集 619 个孟加拉语母语者撰写的文章中的句子,帮助我们了解更常见的错误。通过与神经模型、LLM 和母语为孟加拉语的人类评估者进行了对比评估,结果表明母语为孟加拉语的人类评估者比先进的模型更准确地检测句子的语法正确性。这种生成错误句子的方法也可以应用于其他印度语言。