使用深度生成模型的特征提取进行孟加拉文本分类新综合数据集
本文介绍了几种机器和深度学习方法,应用于孟加拉语新闻分类。这些方法包括逻辑回归、支持向量机、卷积神经网络以及词向量等,同时提出了自动标记的方法,并在孟加拉语最大的新闻分类数据集 Potrika 上评估了它们的性能。
Oct, 2022
该研究介绍了 BNIntent30,这是一个包含 30 个意图类别的全面孟加拉意图分类数据集,该数据集从包含 150 个类别的多样的用户意图的 CLINIC150 数据集中摘录和翻译而来。此外,我们提出了一种新的使用生成对抗 BERT 进行孟加拉意图分类的方法,我们称之为 GAN-BnBERT。我们的实验结果表明,GAN-BnBERT 模型在新引入的 BNIntent30 数据集上实现了优越的性能,超过了现有的 Bi-LSTM 和独立的基于 BERT 的分类模型。
Dec, 2023
该研究使用半监督生成式对抗网络 (GAN) 探究预训练语言模型微调在少量带有注释数据的情况下,分类孟加拉虚假评论和真实评论的潜力。实验结果表明,即使只有 1024 个标注样本,使用半监督 GAN 可在分类孟加拉虚假评论方面取得 83.59% 的准确率和 84.89% 的 f1 值,优于其他预训练语言模型大约 3%、4% 和 10% 的准确率。该研究提出的方法对于缺乏标记数据的分类问题,尤其是对于像孟加拉语这样的低资源语言,可能会有所帮助。
Apr, 2023
通过深度学习模型,我们提出了一个端到端系统来高效地检测、识别、校正和解析孟加拉语标牌上的地址信息,并设计了一种新颖的地址文本校正模型和孟加拉语地址文本解析器。
Nov, 2023
本研究通过开发系统解决孟加拉暴力煽动文本检测的共享任务,探讨了我们所采用的传统和最新方法,该系统有助于分类给定文本是否包含威胁。实验研究了在有限数据集情况下数据增强的影响,定量结果表明,与其他基于变压器结构的模型相比,微调多语言 - e5 基础模型在任务中表现最佳。 在测试集中,宏 F1 得分达到了 68.11%,并且在该共享任务的排行榜中排名第 23 位。
Oct, 2023
针对孟加拉语中的虚假新闻检测,本研究基于大规模数据集,使用了多种深度学习模型,包括双向 GRU 模型、LSTM 模型、1D 卷积神经网络模型以及混合架构模型,通过全面试验证实了这些模型在识别孟加拉语虚假新闻方面的有效性,其中双向 GRU 模型的准确率高达 99.16%。研究结果强调了数据集平衡的重要性,以及对检测过程进行不断改进的必要性,为使用有限资源创建孟加拉语虚假新闻检测系统并为未来的改进工作奠定了基础。
Mar, 2024
我们的研究关注心理健康和社交媒体之间的重要联系,特别是在外向的社交媒体用户中早期检测到抑郁症。通过使用 GPT 3.5、GPT 4 和我们提出的 GPT 3.5 微调模型 DepGPT,以及先进的深度学习模型(LSTM、Bi-LSTM、GRU、BiGRU)和 Transformer 模型(BERT、BanglaBERT、SahajBERT、BanglaBERT-Base),我们对 Reddit 和 X 数据集进行分类,并由精通心理健康的母语使用者将其翻译成孟加拉文,从而创建了孟加拉社交媒体抑郁数据集(BSMDD)。我们的工作提供了每个模型的完整架构细节,并提供了一种系统评估其在孟加拉抑郁文本分类中的性能的方法,使用零样本学习和少样本学习技术。我们的工作证明了 SahajBERT 和具有 FastText 嵌入的 Bi-LSTM 在各自领域的优越性,并解决了 Transformer 模型的可解释性问题,强调了 LLM 的有效性,特别是 DepGPT,在各种学习环境中的灵活性和能力。根据实验结果,所提出的 DepGPT 模型不仅在零样本学习和少样本学习场景中胜过了 Alpaca Lora 7B,而且在准确度和 F1 分数方面也优于其他模型,达到了近乎完美的准确度为 0.9796 和 F1 分数为 0.9804,拥有高召回率和卓越精确度。尽管竞争激烈,GPT-3.5 Turbo 和 Alpaca Lora 7B 在零样本学习和少样本学习情况下相对效果较差。这项工作强调了 LLM 在各种语言环境中的有效性和灵活性,为抑郁症检测模型的复杂领域提供了深入的信息。
Jan, 2024
通过构建达到 15,056 个标记的新闻文章和 65,406 个未标记的新闻文章的第一个孟加拉 clickbait 检测数据集,应用 SS GANs 对 Semi Supervised Generative Adversarial Networks 进行微调,我们提出的新模型作为该数据集的一个良好基准,优于传统神经网络模型(LSTM、GRU、CNN)和基于语言特征的模型,这一研究将为未来检测孟加拉文 clickbait 标题提供一个基础。
Nov, 2023
通过微调波形向量预训练模型,并将 N-gram 语言模型作为后处理程序,我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型,并且比现有模型更具有鲁棒性。
Sep, 2022
本文提出一种基于深度长短期记忆 (LSTM) 模型的有监督学习方法,针对社交媒体上的低资源孟加拉语 - 英语混合数据的单词级别语言识别问题,采用字符编码和词根编码两种方法训练模型,并使用堆叠和阈值技术创建两个集成模型,在测试数据上分别获得了 91.78% 和 92.35% 的准确率。
Mar, 2018