使用手动和自动标注的机器学习和深度学习方法用于孟加拉语新闻分类
本研究收集、标注并准备了一个由 212,184 个孟加拉语文档组成的全面数据集,并公开提供访问。我们实施了三个深度学习生成模型:LSTM 变分自编码器(LSTM VAE)、辅助分类器生成对抗网络(AC-GAN)和对抗自编码器(AAE)以提取文本特征,并将它们应用于文档分类任务中。我们评估了分类器的性能,并发现对抗自编码器模型产生了最好的特征空间。
Aug, 2023
针对孟加拉语中的虚假新闻检测,本研究基于大规模数据集,使用了多种深度学习模型,包括双向 GRU 模型、LSTM 模型、1D 卷积神经网络模型以及混合架构模型,通过全面试验证实了这些模型在识别孟加拉语虚假新闻方面的有效性,其中双向 GRU 模型的准确率高达 99.16%。研究结果强调了数据集平衡的重要性,以及对检测过程进行不断改进的必要性,为使用有限资源创建孟加拉语虚假新闻检测系统并为未来的改进工作奠定了基础。
Mar, 2024
本研究旨在调查各种深度学习架构在印地语文本分类任务中的应用。本文使用了卷积神经网络(CNN)、长短时记忆网络(LSTM)、注意力机制等模型,比较了多语言预训练句子嵌入(BERT 和 LASER)和传统翻译方法的优劣,也为流行的文本分类技术提供了教程。
Jan, 2020
本研究提出了一种基于终身学习和多语言知识转移的新型假新闻检测方法,该方法利用传统特征提取器和深度自然语言处理模型结合多层感知器分类器,可以在英语和西班牙语数据集上提高假新闻分类任务的性能。
May, 2022
这项研究旨在为南非的 isiZulu 和 Siswati 本土语言创建大规模数据集,通过使用四种分类模型和三种单词嵌入方法,分类结果表明,XGBoost、逻辑回归和 LSTM 的 Word2vec 训练表现最佳。
Jun, 2023
该论文介绍了一种名为 Potrika 的大型单标签 Bangla 新闻文章文本数据集,包括八个区分不同类别的分类属性,为 NLP 研究提供了两个不平衡和平衡的数据集,以适应广泛的 NLP 研究,并且是目前最大、最全面的新闻分类数据集。
Oct, 2022
本文提出了一个基于深度学习的流程,用于分类孟加拉语的有害评论,首先使用二元分类模型确定评论是否有害,然后使用多标签分类器确定评论属于哪种毒性类型,使用 LSTM 和 BERT 嵌入达到了 89.42% 的准确性,并使用卷积神经网络和双向 LSTM(CNN-BiLSTM)实现了 78.92% 的准确率和 0.86 的加权 F1 分数。
Apr, 2023
这篇论文使用基于 Transformer 的架构进行情感分析,以解决 Bangla 这种低资源语言的问题,并通过细调模型在推特数据上获得最佳性能。同时,还进行了详细的错误分析。
Oct, 2023
本文提出了一个可用于建立自动检测低资源语言(如孟加拉语)虚假新闻系统的标注数据集,同时提供了数据集分析和基准系统,采用传统语言特征和神经网络技术,为防止虚假信息传播建立技术贡献。
Apr, 2020
本文讨论了 nlpBDpatriots 参加首届与 EMNLP 合作举办的 Bangla 语言处理(BLP)研讨会上共享任务的社交媒体帖子情感分析。我们使用孟加拉语数据集,该数据集由共享任务组织者提供,并注有积极、中性和消极标签,旨在确定社交媒体内容的极性。我们最好的系统是数据增强的迁移学习方法,其 micro F1 分数达到 0.71。在参加比赛的 30 支球队中,我们的最好系统排名第 12 位。
Nov, 2023