RabindraNet, 以拉宾德拉纳特・泰戈尔的风格创作文学作品

Jan, 2022

RabindraNet, 以拉宾德拉纳特・泰戈尔的风格创作文学作品

RabindraNet, Creating Literary Works in the Style of Rabindranath Tagore

Asadullah Al Galib

TL;DR使用最新的自然语言处理 (NLP) 技术，通过给 Bengali 文学奠定基础的杰出作家 Rabindranath Tagore 的专业培训，我们创建了一个基于堆叠 LSTM 层的字符级 RNN 模型 RabindraNet，用于在多种流派中生成与 Rabindranath Tagore 的作品风格相似的文学作品，并通过在数据科学平台 Kaggle 上发表开放源代码数据集的形式来创造广泛的数据集。

Abstract

bengali literature has a rich history of hundreds of years with luminary figures such as rabindranath tagore and Kazi Nazrul Islam. However, analytical works involving the most recent advancements in

bengali literature nlp rabindranath tagore rabindranet text generation

发现论文，激发创造

检测孟加拉语种族主义文本：一种集成深度学习框架

利用 NLP 和深度学习技术，在孟加拉语中建立了一个新颖的数据集，进而成功地检测到了种族主义评论，采用了 RNN、LSTM 和 MCNN-LSTM 模型，并利用集成方法提高了整体性能。

Jan, 2024

使用自然语言处理系统进行孟加拉民间故事的系统化研究和分析

本文旨在将孟加拉民间故事的丰富性以更精密的计算方式呈现给每个人。本研究中提出的模型是研究和分析孟加拉民间故事时，孟加拉语自然语言处理的第一步。

Mar, 2022

BanglaNLP 参与 BLP-2023 任务 2：对孟加拉社交媒体帖子的情感分析进行不同 Transformer 模型的基准测试

这篇论文使用基于 Transformer 的架构进行情感分析，以解决 Bangla 这种低资源语言的问题，并通过细调模型在推特数据上获得最佳性能。同时，还进行了详细的错误分析。

Oct, 2023

几近白板：针对未经分词的文本训练的基于字符级神经语言模型的语言学知识探究

我们进行了一项多语言研究，探讨了在去除单词边界的输入数据上，以字符级语言模型为训练对象的循环神经网络通过基于输入统计量发现有用的语言单位这一更加困难和认知真实的任务的语言学知识编码。结果表明，我们的 “近乎于白板” 的循环神经网络主要能够解决形态、语法和语义任务，这些任务根据直观上的想象需要单词级别的知识，并且它们在某种程度上学会了追踪单词边界。我们的研究为关于语言学习和使用中明确、严格的单词词典必要性的猜测打开了大门。

Jun, 2019

使用循环神经网络实现英文至孟加拉语机器翻译

本文描述了一种利用循环神经网络实现英语到孟加拉语机器翻译的系统架构，采用了基于知识的上下文向量来映射英语和孟加拉语单词，并且通过使用不同的激活函数，分别在编码器层利用线性激活函数，在解码器层采用了 tanh 激活函数。其中，GRU 比 LSTM 表现更优，采用 Softmax 和 Sigmoid 激活函数的注意力层优于之前的最先进系统。

Jun, 2021

通过扩展的 RNN 与 Bi-LSTM 模型在 N-gram 语言上增强孟加拉语下一个单词预测和句子完成

本研究论文介绍了一种有效处理孟加拉语下一个词预测和孟加拉语句子生成的双向长短期记忆网络模型，扩展了孟加拉语处理的范围，具有多样性和潜在影响力，在各种新闻门户网站上构建了语料库数据集，并在单词预测方面取得了卓越结果，uni-gram、bi-gram 和 tri-gram 的单词预测准确率分别达到 35%、75% 和 95%。

May, 2024

使用手动和自动标注的机器学习和深度学习方法用于孟加拉语新闻分类

本文介绍了几种机器和深度学习方法，应用于孟加拉语新闻分类。这些方法包括逻辑回归、支持向量机、卷积神经网络以及词向量等，同时提出了自动标记的方法，并在孟加拉语最大的新闻分类数据集 Potrika 上评估了它们的性能。

Oct, 2022

使用深度学习技术生成的乌尔都诗歌

使用不同的深度学习技术和算法生成乌尔都诗歌，通过 Rekhta 网站收集了 1341 个文本文件，采用 LSTM 和 GRU 等深度学习技术，并运用自然语言处理和机器学习分析和生成人们能够理解和使用的乌尔都语诗歌。

Sep, 2023

基于字符和语音的 LSTM 模型的孟加拉 - 英文混合代码文本语言识别

本文提出一种基于深度长短期记忆 (LSTM) 模型的有监督学习方法，针对社交媒体上的低资源孟加拉语 - 英语混合数据的单词级别语言识别问题，采用字符编码和词根编码两种方法训练模型，并使用堆叠和阈值技术创建两个集成模型，在测试数据上分别获得了 91.78% 和 92.35% 的准确率。

Mar, 2018

通过迁移学习使用 ULMFiT 对孟加拉文学进行作者归属

提出了一种使用 AWD-LSTM 架构和有效的迁移学习方法来解决孟加拉文学领域的作者归属问题，通过分析不同的标记化方法，并介绍了一个包含 16966 份样本文本和 13.4 + 百万词汇的公开孟加拉作者归属数据集（BAAD16），此外还释放了六个预训练语言模型的变体。通过对 BAAD16 数据集及其他公开数据集的评估，实验证明所提出的模型优于目前的最先进模型，在 BAAD16 数据集上达到 99.8% 的准确率，而且在作者数量增加时，系统的可伸缩性表现更好，性能依然稳定。

Mar, 2024