Aug, 2023

使用深度生成模型的特征提取进行孟加拉文本分类新综合数据集

TL;DR本研究收集、标注并准备了一个由 212,184 个孟加拉语文档组成的全面数据集,并公开提供访问。我们实施了三个深度学习生成模型:LSTM 变分自编码器(LSTM VAE)、辅助分类器生成对抗网络(AC-GAN)和对抗自编码器(AAE)以提取文本特征,并将它们应用于文档分类任务中。我们评估了分类器的性能,并发现对抗自编码器模型产生了最好的特征空间。