VAIYAKARANA：孟加拉语自动语法纠正的基准

Jun, 2024

VAIYAKARANA：孟加拉语自动语法纠正的基准

VAIYAKARANA : A Benchmark for Automatic Grammar Correction in Bangla

Pramit Bhattacharyya, Arnab Bhattacharya

TL;DR为缺乏巨大的语料库提供了一个实用的方法来生成孟加拉语的语法错误句子，该方法分类了孟加拉语中的不同错误类型，并从正确的句子中系统地生成错误的句子，该方法提供了一个包含 92,830 个语法错误句子和 18,426 个正确句子的数据集，该数据集还通过收集 619 个孟加拉语母语者撰写的文章中的句子，帮助我们了解更常见的错误。通过与神经模型、LLM 和母语为孟加拉语的人类评估者进行了对比评估，结果表明母语为孟加拉语的人类评估者比先进的模型更准确地检测句子的语法正确性。这种生成错误句子的方法也可以应用于其他印度语言。

Abstract

bangla (Bengali) is the fifth most spoken language globally and, yet, the problem of automatic grammar correction in bangla is still in it

bangla grammar correction corpus grammatically wrong sentences neural networks

发现论文，激发创造

Bangla-Wave：利用 N-gram 语言模型提高孟加拉语自动语音识别

通过微调波形向量预训练模型，并将 N-gram 语言模型作为后处理程序，我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型，并且比现有模型更具有鲁棒性。

Sep, 2022

Vyākarana: 用于印度语言句法评估的无色绿色基准

本文在探索使用多语言语言模型中，如何对印度语系的丰富语法进行句法评估，并使用五个基于句法的任务在五种多语言语言模型中进行了实验，结果显示 IndicBERT 和 MuRIL 在处理印度语系语法时不如其他多语言语言模型表现，而 mBERT、DistilmBERT 和 XLM-R 能在中间层上更有效地捕获印度语系语法。

Mar, 2021

使用 T5 变压器模型进行孟加拉语语法错误检测

使用 T5 语言模型检测孟加拉语中的语法错误，经过 fine-tune 后在测试集上表现良好，仍需后处理以获得最佳性能。

Mar, 2023

评估孟加拉语词汇类比

该论文提供了用于评估孟加拉语词嵌入质量的高质量数据集，该数据集对于基准测试和指导未来研究至关重要。

Apr, 2023

Vacaspati: 孟加拉文学的多样语料库

建立了包含超过 11 百万句子和 1.15 亿个词语的 Bangla 语料库 Vacaspati，并使用该语料库训练了 FastText 和 Electra 模型，这些模型在各种下游任务中表现良好，其中 Vac-BERT 的性能优于其他最先进的 Transformer 模型，而 Vac-FT 则优于其他基于 FastText 的模型。

Jul, 2023

生成预训练大语言模型对孟加拉语语法错误的解释程度如何？

使用生成式预训练模型评估孟加拉语语法错误纠正系统，并强调了提供错误解释和改进反馈质量的重要性。

May, 2024

Vashantor：用于孟加拉区域方言自动翻译到孟加拉语的大规模多语种基准数据集

本研究通过创建一个包含 32,500 个句子的语料库，涵盖孟加拉地区的 5 种地方性孟加拉方言，提出了一种将这些方言翻译为标准孟加拉语并准确检测来源地区的模型 mT5 和 BanglaT5。实验结果显示，孟加拉地区方言的 BLEU 得分最高为 69.06，Chittagong 地区方言的 BLEU 得分最低为 36.75，Mymensingh 地区方言的平均词错误率最低为 0.1548，Chittagong 地区方言的平均词错误率最高为 0.3385。对于地区检测，使用 Bangla-bert-base 和 mBERT 分别达到了 85.86% 和 84.36% 的准确率。该研究为孟加拉方言到孟加拉机器翻译提供了首次大规模的调查，并为解决类似资源匮乏语言环境中的语言相关挑战提供了重要参考。

Nov, 2023

使用潘尼尼语法自动提取孟加拉根动词

本研究提出了一种基于监督学习方法的算法，利用巴尼尼在《八书》中提出的语法规则提取孟加拉语动词的词根形式，该方法可应用于从梵语中派生的语言，并通过对动词的时态、人称和形态变化进行分类和规则提取，测试准确率为 98％，可用于语义搜索、多句搜索查询处理、词义消歧、句子分类等任务中的关键步骤。

Mar, 2020

孟加拉 Common Voice 语音数据集用于自动语音识别

通过众包的方式，我们创建了孟加拉语公共语音数据集，该数据集是一个句子级自动语音识别语料库，与现有的最大开源孟加拉语数据集相比，该数据集具有更多的说话人、音素和环境多样性，并为未来的研究设立了基准。

Jun, 2022

BSpell：基于 CNN 和 BERT 的孟加拉语拼写检查器

本文提出了一种专用于孟加拉语单词拼写检查的 BERT 模型 BSpell，并采用了专用 CNN 子模型 SemanticNet 和混合预训练方案，使其在存在拼写错误的情况下实现了高度变形的孟加拉语词汇的 91.5％的精度，在两个孟加拉语和一个印地语的拼写纠正数据集上的详细比较表明了 BSpell 的优越性。

Aug, 2022