使用 T5 变压器模型进行孟加拉语语法错误检测
这篇论文使用基于 Transformer 的架构进行情感分析,以解决 Bangla 这种低资源语言的问题,并通过细调模型在推特数据上获得最佳性能。同时,还进行了详细的错误分析。
Oct, 2023
本文提出 BanglaNLG,用于评估 Bangla 自然语言生成(NLG)模型的全面基准,并介绍了六个具有挑战性的条件文本生成任务和一个新的对话生成数据集。利用 27.5 GB 干净的 Bangla 数据集,预训练了 BanglaT5,一种面向 Bangla 的序列到序列 Transformer 语言模型。 BanglaT5 在所有任务中均达到最先进的性能,比多语言模型高出 9%的绝对收益和 32%的相对收益。我们将新的对话数据集和 BanglaT5 模型公开发布,以期推动未来的 Bangla NLG 研究。
May, 2022
本研究通过开发系统解决孟加拉暴力煽动文本检测的共享任务,探讨了我们所采用的传统和最新方法,该系统有助于分类给定文本是否包含威胁。实验研究了在有限数据集情况下数据增强的影响,定量结果表明,与其他基于变压器结构的模型相比,微调多语言 - e5 基础模型在任务中表现最佳。 在测试集中,宏 F1 得分达到了 68.11%,并且在该共享任务的排行榜中排名第 23 位。
Oct, 2023
本文研究了将 mT5 多语言模型适应为仅针对印尼语的预训练 T5 模型,通过对多语言模型与本模型在情感分析、问题生成和问答三个任务的表现进行比较,结果表明可以生成一个更小的预训练模型并在 comparable yields 的同时减小模型大小高达 58%,而且所得模型需要更少的内存,加载速度更快,推理时间更快。
Feb, 2023
本研究使用 transformer 架构构建一个适用于具有古老特征的立陶宛语的语法错误纠正模型,并比较了子词和字节级方法,公开了 F$_{0.5}$=0.92 的最佳模型及其代码。
Mar, 2022
为缺乏巨大的语料库提供了一个实用的方法来生成孟加拉语的语法错误句子,该方法分类了孟加拉语中的不同错误类型,并从正确的句子中系统地生成错误的句子,该方法提供了一个包含 92,830 个语法错误句子和 18,426 个正确句子的数据集,该数据集还通过收集 619 个孟加拉语母语者撰写的文章中的句子,帮助我们了解更常见的错误。通过与神经模型、LLM 和母语为孟加拉语的人类评估者进行了对比评估,结果表明母语为孟加拉语的人类评估者比先进的模型更准确地检测句子的语法正确性。这种生成错误句子的方法也可以应用于其他印度语言。
Jun, 2024
本文介绍如何利用去噪变形器来解决自然语言处理中的拼写错误纠正问题,还提出了一种从头创建大规模语料库的方法,并在孟加拉语的拼写错误纠正中获得显著性能优于现有方法的结果。
Nov, 2022
我们的研究关注心理健康和社交媒体之间的重要联系,特别是在外向的社交媒体用户中早期检测到抑郁症。通过使用 GPT 3.5、GPT 4 和我们提出的 GPT 3.5 微调模型 DepGPT,以及先进的深度学习模型(LSTM、Bi-LSTM、GRU、BiGRU)和 Transformer 模型(BERT、BanglaBERT、SahajBERT、BanglaBERT-Base),我们对 Reddit 和 X 数据集进行分类,并由精通心理健康的母语使用者将其翻译成孟加拉文,从而创建了孟加拉社交媒体抑郁数据集(BSMDD)。我们的工作提供了每个模型的完整架构细节,并提供了一种系统评估其在孟加拉抑郁文本分类中的性能的方法,使用零样本学习和少样本学习技术。我们的工作证明了 SahajBERT 和具有 FastText 嵌入的 Bi-LSTM 在各自领域的优越性,并解决了 Transformer 模型的可解释性问题,强调了 LLM 的有效性,特别是 DepGPT,在各种学习环境中的灵活性和能力。根据实验结果,所提出的 DepGPT 模型不仅在零样本学习和少样本学习场景中胜过了 Alpaca Lora 7B,而且在准确度和 F1 分数方面也优于其他模型,达到了近乎完美的准确度为 0.9796 和 F1 分数为 0.9804,拥有高召回率和卓越精确度。尽管竞争激烈,GPT-3.5 Turbo 和 Alpaca Lora 7B 在零样本学习和少样本学习情况下相对效果较差。这项工作强调了 LLM 在各种语言环境中的有效性和灵活性,为抑郁症检测模型的复杂领域提供了深入的信息。
Jan, 2024
本文介绍了 mT5,这是 T5 的多语言变体,基于新的基于 Common Crawl 的数据集进行预训练,涵盖 101 种语言,并展示了在许多多语言基准测试中的最新性能。我们还描述了一种简单的技术,用于在零 - shot 设置中防止 “意外翻译”。
Oct, 2020