使用自然语言处理系统进行孟加拉民间故事的系统化研究和分析

Mar, 2022

使用自然语言处理系统进行孟加拉民间故事的系统化研究和分析

A Systematic Study and Analysis of Bengali Folklore with Natural Language Processing Systems

Mustain Billah, Md. Mynoddin, Mostafijur Rahman Akhond, Md. Nasim Adnan, Syed Md. Galib...

TL;DR本文旨在将孟加拉民间故事的丰富性以更精密的计算方式呈现给每个人。本研究中提出的模型是研究和分析孟加拉民间故事时，孟加拉语自然语言处理的第一步。

Abstract

folklore, a solid branch of folk literature, is the hallmark of any nation or any society. Such as oral tradition; as proverbs or jokes, it also includes material culture as well as traditional folk beliefs, and various customs. Bengali →

folklore bengali language nlp computational natural language processing

发现论文，激发创造

应用自然语言处理技术进行民间故事的信息检索

利用自然语言处理和推理技术在领域本体上提取有关文学人物的信息。以民间故事为例构建了本体。

Nov, 2015

Anubhuti -- 一份用于孟加拉短篇小说情感分析的标注数据集

该研究报道了 Anubhuti 的创建过程 -- 这是用于分析孟加拉短篇小说作家表达情感的第一个且最大的文本语料库，其中包括数据收集方法、手动注释过程、数据集的高一致性及其与基线机器学习和深度学习模型的性能验证以及如何将该数据集应用于语言学和数据分析领域进行情感的研究。

Oct, 2020

使用主题建模和聚类分析不同地区的民间故事

本研究运用主题模型和聚类等自然语言处理技术，研究民间故事中的文化关系，发现了家庭、食物、传统性别角色、神话人物和动物等元素在各地民间故事中的普遍性，并发现了不同地区民间故事话题的差异性。此研究为今后民间故事研究提供了资源，同时也是运用自然语言处理技术分析特定领域文档的例子。

Jun, 2022

RabindraNet, 以拉宾德拉纳特・泰戈尔的风格创作文学作品

使用最新的自然语言处理 (NLP) 技术，通过给 Bengali 文学奠定基础的杰出作家 Rabindranath Tagore 的专业培训，我们创建了一个基于堆叠 LSTM 层的字符级 RNN 模型 RabindraNet，用于在多种流派中生成与 Rabindranath Tagore 的作品风格相似的文学作品，并通过在数据科学平台 Kaggle 上发表开放源代码数据集的形式来创造广泛的数据集。

Jan, 2022

评估孟加拉语词汇类比

该论文提供了用于评估孟加拉语词嵌入质量的高质量数据集，该数据集对于基准测试和指导未来研究至关重要。

Apr, 2023

自然语言处理的 “殖民冲动”：孟加拉情感分析工具及其基于身份的偏见审计

在这篇论文中，我们探讨了社会技术系统（情感分析工具）中潜在的偏见，并对具有殖民主义影响的孟加拉社群中的性别、宗教和国籍等身份类别进行了分析。通过对所有孟加拉情感分析工具进行算法审计，我们发现这些工具不仅在输出上存在不一致性，而且在不同身份表达方式下存在偏见。我们将研究结果与孟加拉社群的殖民主义社会文化结构联系起来，并探讨了情感分析工具下游偏见的影响。

Jan, 2024

BanFakeNews: 用于检测孟加拉语假新闻的数据集

本文提出了一个可用于建立自动检测低资源语言（如孟加拉语）虚假新闻系统的标注数据集，同时提供了数据集分析和基准系统，采用传统语言特征和神经网络技术，为防止虚假信息传播建立技术贡献。

Apr, 2020

孟加拉文本文档的非监督式抽象摘要

该论文提出了一种基于图的无监督生成式摘要系统，用于低资源语言 Bengali 的单篇文档，只需要使用 POS 标注器和在 Bengali 文本上进行预训练的语言模型，该系统表现比多个聚焦摘要系统更好，并提供了人工注释的数据集以支持未来的研究。

Jan, 2021

BNLP: 孟加拉语自然语言处理工具包

BNLP 是一款面向孟加拉语的开源自然语言处理工具包，提供标记化、词嵌入、词性标注和命名实体识别等预训练模型，具有高精度，广受本土研究社区的欢迎。

Jan, 2021

基于 Wav2Vec2 和迁移学习的孟加拉语自动语音识别系统

本文旨在利用基于迁移学习框架的端到端语音识别技术，提高孟加拉语的语音识别性能，并在使用仅 1000 个训练样本进行训练的情况下，在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。

Sep, 2022