使用 T5 变压器模型进行孟加拉语语法错误检测

Mar, 2023

使用 T5 变压器模型进行孟加拉语语法错误检测

Bangla Grammatical Error Detection Using T5 Transformer Model

H.A.Z. Sameen Shahgir, Khondker Salman Sayeed

TL;DR使用 T5 语言模型检测孟加拉语中的语法错误，经过 fine-tune 后在测试集上表现良好，仍需后处理以获得最佳性能。

Abstract

This paper presents a method for detecting grammatical errors in bangla using a Text-to-Text Transfer Transformer (T5) Language Model, using the small variant of BanglaT5, fine-tuned on a corpus of 9385 sentences where errors were bracketed by the dedicated demarcation symbol. The

bangla grammar error detection t5 model levenshtein distance

发现论文，激发创造

BanglaNLP 参与 BLP-2023 任务 2：对孟加拉社交媒体帖子的情感分析进行不同 Transformer 模型的基准测试

这篇论文使用基于 Transformer 的架构进行情感分析，以解决 Bangla 这种低资源语言的问题，并通过细调模型在推特数据上获得最佳性能。同时，还进行了详细的错误分析。

Oct, 2023

BanglaNLG 和 BanglaT5：用于评估孟加拉低资源自然语言生成的基准和资源

本文提出 BanglaNLG，用于评估 Bangla 自然语言生成（NLG）模型的全面基准，并介绍了六个具有挑战性的条件文本生成任务和一个新的对话生成数据集。利用 27.5 GB 干净的 Bangla 数据集，预训练了 BanglaT5，一种面向 Bangla 的序列到序列 Transformer 语言模型。 BanglaT5 在所有任务中均达到最先进的性能，比多语言模型高出 9％的绝对收益和 32％的相对收益。我们将新的对话数据集和 BanglaT5 模型公开发布，以期推动未来的 Bangla NLG 研究。

May, 2022

BanglaNLP 在 BLP-2023 任务 1 中：对孟加拉语中激发暴力的文本检测进行不同的 Transformer 模型评估

本研究通过开发系统解决孟加拉暴力煽动文本检测的共享任务，探讨了我们所采用的传统和最新方法，该系统有助于分类给定文本是否包含威胁。实验研究了在有限数据集情况下数据增强的影响，定量结果表明，与其他基于变压器结构的模型相比，微调多语言 - e5 基础模型在任务中表现最佳。在测试集中，宏 F1 得分达到了 68.11％，并且在该共享任务的排行榜中排名第 23 位。

Oct, 2023

生成预训练大语言模型对孟加拉语语法错误的解释程度如何？

使用生成式预训练模型评估孟加拉语语法错误纠正系统，并强调了提供错误解释和改进反馈质量的重要性。

May, 2024

印尼语多语 T5 转换器

本文研究了将 mT5 多语言模型适应为仅针对印尼语的预训练 T5 模型，通过对多语言模型与本模型在情感分析、问题生成和问答三个任务的表现进行比较，结果表明可以生成一个更小的预训练模型并在 comparable yields 的同时减小模型大小高达 58％，而且所得模型需要更少的内存，加载速度更快，推理时间更快。

Feb, 2023

走向立陶宛语法错误修正

本研究使用 transformer 架构构建一个适用于具有古老特征的立陶宛语的语法错误纠正模型，并比较了子词和字节级方法，公开了 F$_{0.5}$=0.92 的最佳模型及其代码。

Mar, 2022

VAIYAKARANA：孟加拉语自动语法纠正的基准

为缺乏巨大的语料库提供了一个实用的方法来生成孟加拉语的语法错误句子，该方法分类了孟加拉语中的不同错误类型，并从正确的句子中系统地生成错误的句子，该方法提供了一个包含 92,830 个语法错误句子和 18,426 个正确句子的数据集，该数据集还通过收集 619 个孟加拉语母语者撰写的文章中的句子，帮助我们了解更常见的错误。通过与神经模型、LLM 和母语为孟加拉语的人类评估者进行了对比评估，结果表明母语为孟加拉语的人类评估者比先进的模型更准确地检测句子的语法正确性。这种生成错误句子的方法也可以应用于其他印度语言。

Jun, 2024

DPCSpell：基于 Transformer 的孟加拉语和资源稀缺的印度语拼写错误检查器、净化器和修正器框架

本文介绍如何利用去噪变形器来解决自然语言处理中的拼写错误纠正问题，还提出了一种从头创建大规模语料库的方法，并在孟加拉语的拼写错误纠正中获得显著性能优于现有方法的结果。

Nov, 2022

利用大型语言模型对变压器模型进行优化以检测孟加拉抑郁社交媒体文本：一项综合研究

我们的研究关注心理健康和社交媒体之间的重要联系，特别是在外向的社交媒体用户中早期检测到抑郁症。通过使用 GPT 3.5、GPT 4 和我们提出的 GPT 3.5 微调模型 DepGPT，以及先进的深度学习模型（LSTM、Bi-LSTM、GRU、BiGRU）和 Transformer 模型（BERT、BanglaBERT、SahajBERT、BanglaBERT-Base），我们对 Reddit 和 X 数据集进行分类，并由精通心理健康的母语使用者将其翻译成孟加拉文，从而创建了孟加拉社交媒体抑郁数据集（BSMDD）。我们的工作提供了每个模型的完整架构细节，并提供了一种系统评估其在孟加拉抑郁文本分类中的性能的方法，使用零样本学习和少样本学习技术。我们的工作证明了 SahajBERT 和具有 FastText 嵌入的 Bi-LSTM 在各自领域的优越性，并解决了 Transformer 模型的可解释性问题，强调了 LLM 的有效性，特别是 DepGPT，在各种学习环境中的灵活性和能力。根据实验结果，所提出的 DepGPT 模型不仅在零样本学习和少样本学习场景中胜过了 Alpaca Lora 7B，而且在准确度和 F1 分数方面也优于其他模型，达到了近乎完美的准确度为 0.9796 和 F1 分数为 0.9804，拥有高召回率和卓越精确度。尽管竞争激烈，GPT-3.5 Turbo 和 Alpaca Lora 7B 在零样本学习和少样本学习情况下相对效果较差。这项工作强调了 LLM 在各种语言环境中的有效性和灵活性，为抑郁症检测模型的复杂领域提供了深入的信息。

Jan, 2024

mT5: 一种大规模多语言预训练文本到文本的转换器

本文介绍了 mT5，这是 T5 的多语言变体，基于新的基于 Common Crawl 的数据集进行预训练，涵盖 101 种语言，并展示了在许多多语言基准测试中的最新性能。我们还描述了一种简单的技术，用于在零 - shot 设置中防止 “意外翻译”。

Oct, 2020