Oct, 2023

BaitBuster-Bangla: 孟加拉语点击标题检测的多特征和多模态分析全面数据集

TL;DR此研究提供了一个包含 18 个多模式孟加拉语 YouTube 标题党数据集,其中包括来自 58 个孟加拉语 YouTube 频道的 253,070 个数据点。这是迄今为止最大且最强大的孟加拉语标题党语料库,可用于自然语言处理和数据科学研究,以推进低资源语言中标题党现象的建模。它的多模式特性允许通过内容、用户互动和语言维度进行全面分析,以开发具有跨语言应用的更复杂的检测方法。