使用自然语言处理系统进行孟加拉民间故事的系统化研究和分析
该研究报道了 Anubhuti 的创建过程 -- 这是用于分析孟加拉短篇小说作家表达情感的第一个且最大的文本语料库,其中包括数据收集方法、手动注释过程、数据集的高一致性及其与基线机器学习和深度学习模型的性能验证以及如何将该数据集应用于语言学和数据分析领域进行情感的研究。
Oct, 2020
本研究运用主题模型和聚类等自然语言处理技术,研究民间故事中的文化关系,发现了家庭、食物、传统性别角色、神话人物和动物等元素在各地民间故事中的普遍性,并发现了不同地区民间故事话题的差异性。此研究为今后民间故事研究提供了资源,同时也是运用自然语言处理技术分析特定领域文档的例子。
Jun, 2022
使用最新的自然语言处理 (NLP) 技术,通过给 Bengali 文学奠定基础的杰出作家 Rabindranath Tagore 的专业培训,我们创建了一个基于堆叠 LSTM 层的字符级 RNN 模型 RabindraNet,用于在多种流派中生成与 Rabindranath Tagore 的作品风格相似的文学作品,并通过在数据科学平台 Kaggle 上发表开放源代码数据集的形式来创造广泛的数据集。
Jan, 2022
在这篇论文中,我们探讨了社会技术系统(情感分析工具)中潜在的偏见,并对具有殖民主义影响的孟加拉社群中的性别、宗教和国籍等身份类别进行了分析。通过对所有孟加拉情感分析工具进行算法审计,我们发现这些工具不仅在输出上存在不一致性,而且在不同身份表达方式下存在偏见。我们将研究结果与孟加拉社群的殖民主义社会文化结构联系起来,并探讨了情感分析工具下游偏见的影响。
Jan, 2024
本文提出了一个可用于建立自动检测低资源语言(如孟加拉语)虚假新闻系统的标注数据集,同时提供了数据集分析和基准系统,采用传统语言特征和神经网络技术,为防止虚假信息传播建立技术贡献。
Apr, 2020
该论文提出了一种基于图的无监督生成式摘要系统,用于低资源语言 Bengali 的单篇文档,只需要使用 POS 标注器和在 Bengali 文本上进行预训练的语言模型,该系统表现比多个聚焦摘要系统更好,并提供了人工注释的数据集以支持未来的研究。
Jan, 2021
BNLP 是一款面向孟加拉语的开源自然语言处理工具包,提供标记化、词嵌入、词性标注和命名实体识别等预训练模型,具有高精度,广受本土研究社区的欢迎。
Jan, 2021
本文旨在利用基于迁移学习框架的端到端语音识别技术,提高孟加拉语的语音识别性能,并在使用仅 1000 个训练样本进行训练的情况下,在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。
Sep, 2022