使用手动和自动标注的机器学习和深度学习方法用于孟加拉语新闻分类

Oct, 2022

使用手动和自动标注的机器学习和深度学习方法用于孟加拉语新闻分类

Machine and Deep Learning Methods with Manual and Automatic Labelling for News Classification in Bangla Language

Istiak Ahmad, Fahad AlQurashi, Rashid Mehmood

TL;DR本文介绍了几种机器和深度学习方法，应用于孟加拉语新闻分类。这些方法包括逻辑回归、支持向量机、卷积神经网络以及词向量等，同时提出了自动标记的方法，并在孟加拉语最大的新闻分类数据集 Potrika 上评估了它们的性能。

Abstract

Research in natural language processing (NLP) has increasingly become important due to applications such as text classification, text mining, sentiment analysis, POS tagging, named entity recognition, textual entailment, and many others. This paper introduces several machine and

natural language processing machine learning deep learning news classification bangla language

发现论文，激发创造

使用深度生成模型的特征提取进行孟加拉文本分类新综合数据集

本研究收集、标注并准备了一个由 212,184 个孟加拉语文档组成的全面数据集，并公开提供访问。我们实施了三个深度学习生成模型：LSTM 变分自编码器（LSTM VAE）、辅助分类器生成对抗网络（AC-GAN）和对抗自编码器（AAE）以提取文本特征，并将它们应用于文档分类任务中。我们评估了分类器的性能，并发现对抗自编码器模型产生了最好的特征空间。

Aug, 2023

利用双向门控循环单元和深度学习技术增强孟加拉虚假新闻检测

针对孟加拉语中的虚假新闻检测，本研究基于大规模数据集，使用了多种深度学习模型，包括双向 GRU 模型、LSTM 模型、1D 卷积神经网络模型以及混合架构模型，通过全面试验证实了这些模型在识别孟加拉语虚假新闻方面的有效性，其中双向 GRU 模型的准确率高达 99.16%。研究结果强调了数据集平衡的重要性，以及对检测过程进行不断改进的必要性，为使用有限资源创建孟加拉语虚假新闻检测系统并为未来的改进工作奠定了基础。

Mar, 2024

印地文文本分类的深度学习比较

本研究旨在调查各种深度学习架构在印地语文本分类任务中的应用。本文使用了卷积神经网络（CNN）、长短时记忆网络（LSTM）、注意力机制等模型，比较了多语言预训练句子嵌入（BERT 和 LASER）和传统翻译方法的优劣，也为流行的文本分类技术提供了教程。

Jan, 2020

多语言数据分类的终身学习自然语言处理方法

本研究提出了一种基于终身学习和多语言知识转移的新型假新闻检测方法，该方法利用传统特征提取器和深度自然语言处理模型结合多层感知器分类器，可以在英语和西班牙语数据集上提高假新闻分类任务的性能。

May, 2022

Izindaba-Tindzaba：针对 Zulu 语和 Siswati 语的长文本和短文本机器学习新闻分类

这项研究旨在为南非的 isiZulu 和 Siswati 本土语言创建大规模数据集，通过使用四种分类模型和三种单词嵌入方法，分类结果表明，XGBoost、逻辑回归和 LSTM 的 Word2vec 训练表现最佳。

Jun, 2023

Potrika: 八个话题和五个属性的孟加拉语原始平衡报纸数据集

该论文介绍了一种名为 Potrika 的大型单标签 Bangla 新闻文章文本数据集，包括八个区分不同类别的分类属性，为 NLP 研究提供了两个不平衡和平衡的数据集，以适应广泛的 NLP 研究，并且是目前最大、最全面的新闻分类数据集。

Oct, 2022

使用深度学习进行可解释的孟加拉有害评论多标签分类

本文提出了一个基于深度学习的流程，用于分类孟加拉语的有害评论，首先使用二元分类模型确定评论是否有害，然后使用多标签分类器确定评论属于哪种毒性类型，使用 LSTM 和 BERT 嵌入达到了 89.42% 的准确性，并使用卷积神经网络和双向 LSTM（CNN-BiLSTM）实现了 78.92% 的准确率和 0.86 的加权 F1 分数。

Apr, 2023

BanglaNLP 参与 BLP-2023 任务 2：对孟加拉社交媒体帖子的情感分析进行不同 Transformer 模型的基准测试

这篇论文使用基于 Transformer 的架构进行情感分析，以解决 Bangla 这种低资源语言的问题，并通过细调模型在推特数据上获得最佳性能。同时，还进行了详细的错误分析。

Oct, 2023

BanFakeNews: 用于检测孟加拉语假新闻的数据集

本文提出了一个可用于建立自动检测低资源语言（如孟加拉语）虚假新闻系统的标注数据集，同时提供了数据集分析和基准系统，采用传统语言特征和神经网络技术，为防止虚假信息传播建立技术贡献。

Apr, 2020

nlpBDpatriots 在 BLP-2023 任务 2 中的应用：孟加拉情感分析的迁移学习方法

本文讨论了 nlpBDpatriots 参加首届与 EMNLP 合作举办的 Bangla 语言处理（BLP）研讨会上共享任务的社交媒体帖子情感分析。我们使用孟加拉语数据集，该数据集由共享任务组织者提供，并注有积极、中性和消极标签，旨在确定社交媒体内容的极性。我们最好的系统是数据增强的迁移学习方法，其 micro F1 分数达到 0.71。在参加比赛的 30 支球队中，我们的最好系统排名第 12 位。

Nov, 2023