RabindraNet, 以拉宾德拉纳特・泰戈尔的风格创作文学作品
利用 NLP 和深度学习技术,在孟加拉语中建立了一个新颖的数据集,进而成功地检测到了种族主义评论,采用了 RNN、LSTM 和 MCNN-LSTM 模型,并利用集成方法提高了整体性能。
Jan, 2024
本文旨在将孟加拉民间故事的丰富性以更精密的计算方式呈现给每个人。本研究中提出的模型是研究和分析孟加拉民间故事时,孟加拉语自然语言处理的第一步。
Mar, 2022
这篇论文使用基于 Transformer 的架构进行情感分析,以解决 Bangla 这种低资源语言的问题,并通过细调模型在推特数据上获得最佳性能。同时,还进行了详细的错误分析。
Oct, 2023
我们进行了一项多语言研究,探讨了在去除单词边界的输入数据上,以字符级语言模型为训练对象的循环神经网络通过基于输入统计量发现有用的语言单位这一更加困难和认知真实的任务的语言学知识编码。结果表明,我们的 “近乎于白板” 的循环神经网络主要能够解决形态、语法和语义任务,这些任务根据直观上的想象需要单词级别的知识,并且它们在某种程度上学会了追踪单词边界。我们的研究为关于语言学习和使用中明确、严格的单词词典必要性的猜测打开了大门。
Jun, 2019
本文描述了一种利用循环神经网络实现英语到孟加拉语机器翻译的系统架构,采用了基于知识的上下文向量来映射英语和孟加拉语单词,并且通过使用不同的激活函数,分别在编码器层利用线性激活函数,在解码器层采用了 tanh 激活函数。其中,GRU 比 LSTM 表现更优,采用 Softmax 和 Sigmoid 激活函数的注意力层优于之前的最先进系统。
Jun, 2021
本研究论文介绍了一种有效处理孟加拉语下一个词预测和孟加拉语句子生成的双向长短期记忆网络模型,扩展了孟加拉语处理的范围,具有多样性和潜在影响力,在各种新闻门户网站上构建了语料库数据集,并在单词预测方面取得了卓越结果,uni-gram、bi-gram 和 tri-gram 的单词预测准确率分别达到 35%、75% 和 95%。
May, 2024
本文介绍了几种机器和深度学习方法,应用于孟加拉语新闻分类。这些方法包括逻辑回归、支持向量机、卷积神经网络以及词向量等,同时提出了自动标记的方法,并在孟加拉语最大的新闻分类数据集 Potrika 上评估了它们的性能。
Oct, 2022
使用不同的深度学习技术和算法生成乌尔都诗歌,通过 Rekhta 网站收集了 1341 个文本文件,采用 LSTM 和 GRU 等深度学习技术,并运用自然语言处理和机器学习分析和生成人们能够理解和使用的乌尔都语诗歌。
Sep, 2023
本文提出一种基于深度长短期记忆 (LSTM) 模型的有监督学习方法,针对社交媒体上的低资源孟加拉语 - 英语混合数据的单词级别语言识别问题,采用字符编码和词根编码两种方法训练模型,并使用堆叠和阈值技术创建两个集成模型,在测试数据上分别获得了 91.78% 和 92.35% 的准确率。
Mar, 2018
提出了一种使用 AWD-LSTM 架构和有效的迁移学习方法来解决孟加拉文学领域的作者归属问题,通过分析不同的标记化方法,并介绍了一个包含 16966 份样本文本和 13.4 + 百万词汇的公开孟加拉作者归属数据集(BAAD16),此外还释放了六个预训练语言模型的变体。通过对 BAAD16 数据集及其他公开数据集的评估,实验证明所提出的模型优于目前的最先进模型,在 BAAD16 数据集上达到 99.8% 的准确率,而且在作者数量增加时,系统的可伸缩性表现更好,性能依然稳定。
Mar, 2024