BanglaBait: 孟加拉语点击诱饵数据集上的半监督对抗性方法

Nov, 2023

BanglaBait: 孟加拉语点击诱饵数据集上的半监督对抗性方法

BanglaBait: Semi-Supervised Adversarial Approach for Clickbait Detection on Bangla Clickbait Dataset

Md. Motahar Mahtab, Monirul Haque, Mehedi Hasan, Farig Sadeque

TL;DR通过构建达到 15,056 个标记的新闻文章和 65,406 个未标记的新闻文章的第一个孟加拉 clickbait 检测数据集，应用 SS GANs 对 Semi Supervised Generative Adversarial Networks 进行微调，我们提出的新模型作为该数据集的一个良好基准，优于传统神经网络模型（LSTM、GRU、CNN）和基于语言特征的模型，这一研究将为未来检测孟加拉文 clickbait 标题提供一个基础。

Abstract

Intentionally luring readers to click on a particular content by exploiting their curiosity defines a title as clickbait. Although several studies focused on detecting clickbait titles in English articles, low re

clickbait bangla detection dataset transformer model bengali articles

发现论文，激发创造

BaitBuster-Bangla: 孟加拉语点击标题检测的多特征和多模态分析全面数据集

此研究提供了一个包含 18 个多模式孟加拉语 YouTube 标题党数据集，其中包括来自 58 个孟加拉语 YouTube 频道的 253,070 个数据点。这是迄今为止最大且最强大的孟加拉语标题党语料库，可用于自然语言处理和数据科学研究，以推进低资源语言中标题党现象的建模。它的多模式特性允许通过内容、用户互动和语言维度进行全面分析，以开发具有跨语言应用的更复杂的检测方法。

Oct, 2023

使用神经网络识别网络新闻中的标题党

本研究提出了一种使用深度学习方法来检测 2017 年 Clickbait Challenge 数据集中的 clickbaits 的模型，同时利用数据分析和可视化技术探索和发现数据集中的信息。该模型在均方误差方面在 Clickbait Challenge 2017 中获得了第一名。

Jun, 2018

基于半监督置信网络和门控注意力的循环神经网络用于点击量挑逗检测

提出使用基于 Gumbel-Softmax 分布的注意力机制的半监督分类方法及一种置信度网络对 clickbaits 进行检测，并证明采用弱标签学习法可以优化该方法。

Nov, 2018

使用神经网络的多策略方法识别标题党

提出了一种基于神经网络，包括双向 LSTM、注意力机制、孪生网络及卷积神经网络的新型点击诱饵检测方法来预测社交媒体帖子的点击诱饵得分，在 19538 个社交媒体帖子的测试语料库上达到 65.37% 的 F1 得分，优于之前的工程学特征或其他方法。

Oct, 2017

通过文本摘要进行标题点击热点检测的提示微调

通过文本摘要总结内容，并根据生成的摘要与内容之间的相似性进行 clickbait 检测，本文提出了一种基于提示调整的 clickbait 检测方法，该方法通过预训练语言模型产生高质量的新闻摘要，并将头条和新生成的摘要作为提示调整的输入，采用各种策略结合外部知识以提高 clickbait 检测性能。在知名 clickbait 检测数据集上的广泛实验表明，我们的方法达到了最先进的性能。

Apr, 2024

2017 年吸引点击挑战赛：探索一种点击强度回归模型

利用机器学习技术自动检测社交媒体中的标题党已成为共同面临的问题，2017 Clickbait 挑战赛的参与者致力于研究针对此类问题的检测器，并取得了一定的进展。

Dec, 2018

使用半监督生成对抗网络检测孟加拉虚假评论

该研究使用半监督生成式对抗网络 (GAN) 探究预训练语言模型微调在少量带有注释数据的情况下，分类孟加拉虚假评论和真实评论的潜力。实验结果表明，即使只有 1024 个标注样本，使用半监督 GAN 可在分类孟加拉虚假评论方面取得 83.59% 的准确率和 84.89% 的 f1 值，优于其他预训练语言模型大约 3%、4% 和 10% 的准确率。该研究提出的方法对于缺乏标记数据的分类问题，尤其是对于像孟加拉语这样的低资源语言，可能会有所帮助。

Apr, 2023

BanFakeNews: 用于检测孟加拉语假新闻的数据集

本文提出了一个可用于建立自动检测低资源语言（如孟加拉语）虚假新闻系统的标注数据集，同时提供了数据集分析和基准系统，采用传统语言特征和神经网络技术，为防止虚假信息传播建立技术贡献。

Apr, 2020

使用神经网络检测点击诱饵：你绝不会相信接下来发生了什么！

本文介绍了一种基于循环神经网络的神经网络架构，用于检测新闻标题中的 'clickbait'，该模型依靠从大型未注释的语料库中学习的分布式词表示和通过卷积神经网络学习的字符嵌入。在新闻标题数据集上的实验结果表明，这种方法表现优于现有的 'clickbait' 检测技术，具有 0.98 的准确率，0.98 的 F1 得分和 0.99 的 ROC-AUC 度量。

Dec, 2016

一种新的对比学习方法用于 RoCliCo 上的点击诱饵检测：一份罗马尼亚新闻文章的点击诱饵语料库

为了增加收入，新闻网站经常使用虚假新闻标题，诱使用户点击标题并阅读完整的新闻。点击诱骗检测是一项旨在自动检测这种虚假广告，并避免浪费在线用户宝贵时间的任务。我们介绍了一个新颖的罗马尼亚点击诱骗语料库（RoCliCo），包括 8,313 个新闻样本，手动注释了点击诱骗和非点击诱骗标签。此外，我们用 4 种机器学习方法进行实验，从手工模型到循环和基于转换器的神经网络，以建立一组有竞争力的基准。我们还进行了加权投票集成实验。在考虑的基准中，我们提出了一种新颖的基于 BERT 的对比学习模型，该模型学习将新闻标题和内容编码成一个深度度量空间，使得非点击诱骗新闻的标题和内容具有高余弦相似度，而点击诱骗新闻的标题和内容具有低余弦相似度。我们的数据集和代码可在此 URL 公开下载。

Oct, 2023