使用深度生成模型的特征提取进行孟加拉文本分类新综合数据集

Aug, 2023

使用深度生成模型的特征提取进行孟加拉文本分类新综合数据集

Feature Extraction Using Deep Generative Models for Bangla Text Classification on a New Comprehensive Dataset

Md. Rafi-Ur-Rashid, Sami Azam, Mirjam Jonkman

TL;DR本研究收集、标注并准备了一个由 212,184 个孟加拉语文档组成的全面数据集，并公开提供访问。我们实施了三个深度学习生成模型：LSTM 变分自编码器（LSTM VAE）、辅助分类器生成对抗网络（AC-GAN）和对抗自编码器（AAE）以提取文本特征，并将它们应用于文档分类任务中。我们评估了分类器的性能，并发现对抗自编码器模型产生了最好的特征空间。

Abstract

The selection of features for text classification is a fundamental task in text mining and information retrieval. Despite being the sixth

text classification features text mining bangla deep learning

发现论文，激发创造

使用手动和自动标注的机器学习和深度学习方法用于孟加拉语新闻分类

本文介绍了几种机器和深度学习方法，应用于孟加拉语新闻分类。这些方法包括逻辑回归、支持向量机、卷积神经网络以及词向量等，同时提出了自动标记的方法，并在孟加拉语最大的新闻分类数据集 Potrika 上评估了它们的性能。

Oct, 2022

基于生成对抗 Bert 的孟加拉意图分类

该研究介绍了 BNIntent30，这是一个包含 30 个意图类别的全面孟加拉意图分类数据集，该数据集从包含 150 个类别的多样的用户意图的 CLINIC150 数据集中摘录和翻译而来。此外，我们提出了一种新的使用生成对抗 BERT 进行孟加拉意图分类的方法，我们称之为 GAN-BnBERT。我们的实验结果表明，GAN-BnBERT 模型在新引入的 BNIntent30 数据集上实现了优越的性能，超过了现有的 Bi-LSTM 和独立的基于 BERT 的分类模型。

Dec, 2023

使用半监督生成对抗网络检测孟加拉虚假评论

该研究使用半监督生成式对抗网络 (GAN) 探究预训练语言模型微调在少量带有注释数据的情况下，分类孟加拉虚假评论和真实评论的潜力。实验结果表明，即使只有 1024 个标注样本，使用半监督 GAN 可在分类孟加拉虚假评论方面取得 83.59% 的准确率和 84.89% 的 f1 值，优于其他预训练语言模型大约 3%、4% 和 10% 的准确率。该研究提出的方法对于缺乏标记数据的分类问题，尤其是对于像孟加拉语这样的低资源语言，可能会有所帮助。

Apr, 2023

基于深度学习的孟加拉标牌地址信息的检测、识别和解析

通过深度学习模型，我们提出了一个端到端系统来高效地检测、识别、校正和解析孟加拉语标牌上的地址信息，并设计了一种新颖的地址文本校正模型和孟加拉语地址文本解析器。

Nov, 2023

BanglaNLP 在 BLP-2023 任务 1 中：对孟加拉语中激发暴力的文本检测进行不同的 Transformer 模型评估

本研究通过开发系统解决孟加拉暴力煽动文本检测的共享任务，探讨了我们所采用的传统和最新方法，该系统有助于分类给定文本是否包含威胁。实验研究了在有限数据集情况下数据增强的影响，定量结果表明，与其他基于变压器结构的模型相比，微调多语言 - e5 基础模型在任务中表现最佳。在测试集中，宏 F1 得分达到了 68.11％，并且在该共享任务的排行榜中排名第 23 位。

Oct, 2023

利用双向门控循环单元和深度学习技术增强孟加拉虚假新闻检测

针对孟加拉语中的虚假新闻检测，本研究基于大规模数据集，使用了多种深度学习模型，包括双向 GRU 模型、LSTM 模型、1D 卷积神经网络模型以及混合架构模型，通过全面试验证实了这些模型在识别孟加拉语虚假新闻方面的有效性，其中双向 GRU 模型的准确率高达 99.16%。研究结果强调了数据集平衡的重要性，以及对检测过程进行不断改进的必要性，为使用有限资源创建孟加拉语虚假新闻检测系统并为未来的改进工作奠定了基础。

Mar, 2024

利用大型语言模型对变压器模型进行优化以检测孟加拉抑郁社交媒体文本：一项综合研究

我们的研究关注心理健康和社交媒体之间的重要联系，特别是在外向的社交媒体用户中早期检测到抑郁症。通过使用 GPT 3.5、GPT 4 和我们提出的 GPT 3.5 微调模型 DepGPT，以及先进的深度学习模型（LSTM、Bi-LSTM、GRU、BiGRU）和 Transformer 模型（BERT、BanglaBERT、SahajBERT、BanglaBERT-Base），我们对 Reddit 和 X 数据集进行分类，并由精通心理健康的母语使用者将其翻译成孟加拉文，从而创建了孟加拉社交媒体抑郁数据集（BSMDD）。我们的工作提供了每个模型的完整架构细节，并提供了一种系统评估其在孟加拉抑郁文本分类中的性能的方法，使用零样本学习和少样本学习技术。我们的工作证明了 SahajBERT 和具有 FastText 嵌入的 Bi-LSTM 在各自领域的优越性，并解决了 Transformer 模型的可解释性问题，强调了 LLM 的有效性，特别是 DepGPT，在各种学习环境中的灵活性和能力。根据实验结果，所提出的 DepGPT 模型不仅在零样本学习和少样本学习场景中胜过了 Alpaca Lora 7B，而且在准确度和 F1 分数方面也优于其他模型，达到了近乎完美的准确度为 0.9796 和 F1 分数为 0.9804，拥有高召回率和卓越精确度。尽管竞争激烈，GPT-3.5 Turbo 和 Alpaca Lora 7B 在零样本学习和少样本学习情况下相对效果较差。这项工作强调了 LLM 在各种语言环境中的有效性和灵活性，为抑郁症检测模型的复杂领域提供了深入的信息。

Jan, 2024

BanglaBait: 孟加拉语点击诱饵数据集上的半监督对抗性方法

通过构建达到 15,056 个标记的新闻文章和 65,406 个未标记的新闻文章的第一个孟加拉 clickbait 检测数据集，应用 SS GANs 对 Semi Supervised Generative Adversarial Networks 进行微调，我们提出的新模型作为该数据集的一个良好基准，优于传统神经网络模型（LSTM、GRU、CNN）和基于语言特征的模型，这一研究将为未来检测孟加拉文 clickbait 标题提供一个基础。

Nov, 2023

Bangla-Wave：利用 N-gram 语言模型提高孟加拉语自动语音识别

通过微调波形向量预训练模型，并将 N-gram 语言模型作为后处理程序，我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型，并且比现有模型更具有鲁棒性。

Sep, 2022

基于字符和语音的 LSTM 模型的孟加拉 - 英文混合代码文本语言识别

本文提出一种基于深度长短期记忆 (LSTM) 模型的有监督学习方法，针对社交媒体上的低资源孟加拉语 - 英语混合数据的单词级别语言识别问题，采用字符编码和词根编码两种方法训练模型，并使用堆叠和阈值技术创建两个集成模型，在测试数据上分别获得了 91.78% 和 92.35% 的准确率。

Mar, 2018