一种新的对比学习方法用于 RoCliCo 上的点击诱饵检测：一份罗马尼亚新闻文章的点击诱饵语料库

EMNLPOct, 2023

一种新的对比学习方法用于 RoCliCo 上的点击诱饵检测：一份罗马尼亚新闻文章的点击诱饵语料库

A Novel Contrastive Learning Method for Clickbait Detection on RoCliCo: A Romanian Clickbait Corpus of News Articles

Daria-Mihaela Broscoteanu, Radu Tudor Ionescu

TL;DR为了增加收入，新闻网站经常使用虚假新闻标题，诱使用户点击标题并阅读完整的新闻。点击诱骗检测是一项旨在自动检测这种虚假广告，并避免浪费在线用户宝贵时间的任务。我们介绍了一个新颖的罗马尼亚点击诱骗语料库（RoCliCo），包括 8,313 个新闻样本，手动注释了点击诱骗和非点击诱骗标签。此外，我们用 4 种机器学习方法进行实验，从手工模型到循环和基于转换器的神经网络，以建立一组有竞争力的基准。我们还进行了加权投票集成实验。在考虑的基准中，我们提出了一种新颖的基于 BERT 的对比学习模型，该模型学习将新闻标题和内容编码成一个深度度量空间，使得非点击诱骗新闻的标题和内容具有高余弦相似度，而点击诱骗新闻的标题和内容具有低余弦相似度。我们的数据集和代码可在此 URL 公开下载。

Abstract

To increase revenue, news websites often resort to using deceptive news titles, luring users into clicking on the title and reading the full news. clickbait detection is the task that aims to automatically detect

clickbait detection news websites romanian clickbait corpus machine learning methods bert-based contrastive learning model

发现论文，激发创造

SaRoCo: 检测罗马尼亚新闻文章中的讽刺

使用两个深层神经模型，在罗马尼亚新闻中检测幽默的机器水平准确率不高，表明未来研究有足够的改进空间。

May, 2021

使用神经网络检测点击诱饵：你绝不会相信接下来发生了什么！

本文介绍了一种基于循环神经网络的神经网络架构，用于检测新闻标题中的 'clickbait'，该模型依靠从大型未注释的语料库中学习的分布式词表示和通过卷积神经网络学习的字符嵌入。在新闻标题数据集上的实验结果表明，这种方法表现优于现有的 'clickbait' 检测技术，具有 0.98 的准确率，0.98 的 F1 得分和 0.99 的 ROC-AUC 度量。

Dec, 2016

使用神经网络识别网络新闻中的标题党

本研究提出了一种使用深度学习方法来检测 2017 年 Clickbait Challenge 数据集中的 clickbaits 的模型，同时利用数据分析和可视化技术探索和发现数据集中的信息。该模型在均方误差方面在 Clickbait Challenge 2017 中获得了第一名。

Jun, 2018

BanglaBait: 孟加拉语点击诱饵数据集上的半监督对抗性方法

通过构建达到 15,056 个标记的新闻文章和 65,406 个未标记的新闻文章的第一个孟加拉 clickbait 检测数据集，应用 SS GANs 对 Semi Supervised Generative Adversarial Networks 进行微调，我们提出的新模型作为该数据集的一个良好基准，优于传统神经网络模型（LSTM、GRU、CNN）和基于语言特征的模型，这一研究将为未来检测孟加拉文 clickbait 标题提供一个基础。

Nov, 2023

使用神经网络的多策略方法识别标题党

提出了一种基于神经网络，包括双向 LSTM、注意力机制、孪生网络及卷积神经网络的新型点击诱饵检测方法来预测社交媒体帖子的点击诱饵得分，在 19538 个社交媒体帖子的测试语料库上达到 65.37% 的 F1 得分，优于之前的工程学特征或其他方法。

Oct, 2017

NoticIA：一份西班牙语的点击诱骗文章摘要数据集

NoticIA 是一项数据集，其中包含 850 篇西班牙新闻文章，配有高质量的单句生成摘要，用于评估大型语言模型对西班牙文本的理解能力，并用于训练 ClickbaitFighter 模型，该模型在这一任务上达到接近人类水平的表现。

Apr, 2024

通过文本摘要进行标题点击热点检测的提示微调

通过文本摘要总结内容，并根据生成的摘要与内容之间的相似性进行 clickbait 检测，本文提出了一种基于提示调整的 clickbait 检测方法，该方法通过预训练语言模型产生高质量的新闻摘要，并将头条和新生成的摘要作为提示调整的输入，采用各种策略结合外部知识以提高 clickbait 检测性能。在知名 clickbait 检测数据集上的广泛实验表明，我们的方法达到了最先进的性能。

Apr, 2024

通过大型语言模型检测标题党

本研究旨在研究大语言模型是否适用于高质量的点击诱饵检测系统，并通过在多个英文和中文基准数据集上进行的实验结果表明，LLMs 不能实现与最先进的深度微调方式相比的最佳结果，对于检测点击诱饵文本，仅仅使用标题是不够的。

Jun, 2023

2017 年吸引点击挑战赛：探索一种点击强度回归模型

利用机器学习技术自动检测社交媒体中的标题党已成为共同面临的问题，2017 Clickbait 挑战赛的参与者致力于研究针对此类问题的检测器，并取得了一定的进展。

Dec, 2018

基于半监督置信网络和门控注意力的循环神经网络用于点击量挑逗检测

提出使用基于 Gumbel-Softmax 分布的注意力机制的半监督分类方法及一种置信度网络对 clickbaits 进行检测，并证明采用弱标签学习法可以优化该方法。

Nov, 2018