- 检测孟加拉语种族主义文本:一种集成深度学习框架
利用 NLP 和深度学习技术,在孟加拉语中建立了一个新颖的数据集,进而成功地检测到了种族主义评论,采用了 RNN、LSTM 和 MCNN-LSTM 模型,并利用集成方法提高了整体性能。
- BanMANI:用于识别孟加拉社交媒体新闻操纵的数据集
本研究采用 BanMANI 数据集,旨在解决社交媒体新闻中虚假操纵相关新闻文章的具体声明在孟加拉语中尚未得到解决的问题。通过分析,我们发现这个任务无论是在零样本还是在微调设置下,都对当前 LLMs 构成了挑战。
- MM孟加拉语中的视觉问题生成
研究文章提出了一种基于变压器编码器 - 解码器架构的孟加拉语视觉问题生成任务和多种模型变体,通过在给定图像的情况下生成孟加拉语问题,并在翻译 VQAv2.0 数据集上进行训练和评估,结果表明我们的模型能够生成语法正确和相关的问题。
- 排名:通过基于排名的方法增强孟加拉文本摘要
本文旨在通过利用基于排名的方法,比较四种不同的预训练孟加拉文本摘要模型的输出,从而识别给定文本的最准确和最有信息量的摘要,并使用标准自然语言生成指标来评估生成的摘要的有效性,结果表明通过利用每个预训练转换器模型的优势并结合它们,我们的方法显 - 使用半监督生成对抗网络检测孟加拉虚假评论
该研究使用半监督生成式对抗网络 (GAN) 探究预训练语言模型微调在少量带有注释数据的情况下,分类孟加拉虚假评论和真实评论的潜力。实验结果表明,即使只有 1024 个标注样本,使用半监督 GAN 可在分类孟加拉虚假评论方面取得 83.59% - 基于 Wav2Vec2 和迁移学习的孟加拉语自动语音识别系统
本文旨在利用基于迁移学习框架的端到端语音识别技术,提高孟加拉语的语音识别性能,并在使用仅 1000 个训练样本进行训练的情况下,在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。
- 利用注意力机制循环神经网络在社交媒体上检测孟加拉仇恨言论
通过使用编码器和解码器技术(encoder decoder),作者们提出了一种基于机器学习的模型来检测社交媒体中孟加拉语言使用者的仇恨言论。该模型使用了 1D 卷积层来提取和编码本地特征,并使用了注意机制、LSTM 和 GRU 解码器来预测 - 使用自然语言处理系统进行孟加拉民间故事的系统化研究和分析
本文旨在将孟加拉民间故事的丰富性以更精密的计算方式呈现给每个人。本研究中提出的模型是研究和分析孟加拉民间故事时,孟加拉语自然语言处理的第一步。
- ACL使用基于 Transformer 的方法在资源有限的语言中进行情感分类
本文提出了一种基于 Transformer 的技术,通过机器学习和深度神经网络的方法,将孟加拉文本分类为六种基本情感,实验结果显示,使用 XLM-R 技术在测试数据上获得了最高的加权 F1 值(69.73%)。
- BNLP: 孟加拉语自然语言处理工具包
BNLP 是一款面向孟加拉语的开源自然语言处理工具包,提供标记化、词嵌入、词性标注和命名实体识别等预训练模型,具有高精度,广受本土研究社区的欢迎。
- ACL孟加拉文本文档的非监督式抽象摘要
该论文提出了一种基于图的无监督生成式摘要系统,用于低资源语言 Bengali 的单篇文档,只需要使用 POS 标注器和在 Bengali 文本上进行预训练的语言模型,该系统表现比多个聚焦摘要系统更好,并提供了人工注释的数据集以支持未来的研究 - AAAI简单还是复杂?学习预测孟加拉文本的可读性
本文提出了一种可分析孟加拉语文本可读性和复杂性的工具,包括一些人工注释的数据集和字典,并在缺乏人工注释数据的情况下,使用句子级和神经结构进行文档级可读性的预测和建模,这将作为孟加拉语可读性预测的基线。