EMNLPOct, 2023

一种新的对比学习方法用于 RoCliCo 上的点击诱饵检测:一份罗马尼亚新闻文章的点击诱饵语料库

TL;DR为了增加收入,新闻网站经常使用虚假新闻标题,诱使用户点击标题并阅读完整的新闻。点击诱骗检测是一项旨在自动检测这种虚假广告,并避免浪费在线用户宝贵时间的任务。我们介绍了一个新颖的罗马尼亚点击诱骗语料库(RoCliCo),包括 8,313 个新闻样本,手动注释了点击诱骗和非点击诱骗标签。此外,我们用 4 种机器学习方法进行实验,从手工模型到循环和基于转换器的神经网络,以建立一组有竞争力的基准。我们还进行了加权投票集成实验。在考虑的基准中,我们提出了一种新颖的基于 BERT 的对比学习模型,该模型学习将新闻标题和内容编码成一个深度度量空间,使得非点击诱骗新闻的标题和内容具有高余弦相似度,而点击诱骗新闻的标题和内容具有低余弦相似度。我们的数据集和代码可在此 URL 公开下载。