SaRoCo: 检测罗马尼亚新闻文章中的讽刺
为了增加收入,新闻网站经常使用虚假新闻标题,诱使用户点击标题并阅读完整的新闻。点击诱骗检测是一项旨在自动检测这种虚假广告,并避免浪费在线用户宝贵时间的任务。我们介绍了一个新颖的罗马尼亚点击诱骗语料库(RoCliCo),包括 8,313 个新闻样本,手动注释了点击诱骗和非点击诱骗标签。此外,我们用 4 种机器学习方法进行实验,从手工模型到循环和基于转换器的神经网络,以建立一组有竞争力的基准。我们还进行了加权投票集成实验。在考虑的基准中,我们提出了一种新颖的基于 BERT 的对比学习模型,该模型学习将新闻标题和内容编码成一个深度度量空间,使得非点击诱骗新闻的标题和内容具有高余弦相似度,而点击诱骗新闻的标题和内容具有低余弦相似度。我们的数据集和代码可在此 URL 公开下载。
Oct, 2023
介绍了 MOldavian 和 ROmanian 方言语料库(MOROCO),包含来自六个主题的 33564 个文本样本和用于分类任务的标签,使用基于字符串核的浅层方法和包含 Squeeze-and-Excitation 块的字符级卷积神经网络的深层方法进行实验和研究了最具有区分性的特征。
Jan, 2019
基于对抗可训练和胶囊网络的调优,提出了一种优化了的自然语言处理模型,可用于罗马尼亚语的讽刺检测和情感分析任务,对已有方法进行了超越,准确率高达 99.08%。
Jun, 2023
本文介绍了一种新的用于讽刺检测的模型,该模型包括对抗性部分以控制发布源的混杂变量,最终得到了可观的讽刺分类性能和显著下降的发布分类性能。通过分析得出,对抗性组件是该模型关注讽刺语言属性的关键。
Feb, 2019
本论文介绍了 AlbNews,这是一个包含 600 个主题标记的阿尔巴尼亚新闻标题和 2600 个未标记标题的集合,可用于进行主题建模研究。我们报告了一些传统机器学习分类器使用 AlbNews 样本进行训练的初始分类分数。结果显示基本模型超过了集成学习模型,并可作为未来实验的基准。
Feb, 2024
该研究介绍了一个用于句子级别主体性检测的新语料库,其中包括英语政治事务的主观句子和客观句子,同时开发了新的标注指南和使用最新的多语言转换模型,使得该语料库能够用于英语和其他语言的主体性检测,并在其他语言丰富资源的情况下,提高了该任务的结果。
May, 2023
该研究提供了一个句子级情感数据集,覆盖了克罗地亚新闻领域,在已有的 3000 个注释文本的基础上,增加了 14500 个带有 5 个类别标签的注释句子出现。研究者在注释过程中提供了基线分数和标注者间的一致性分析。
May, 2023
本文研究了关于讽刺新闻的多模态方法,并使用基于 ViLBERT 模型的新数据集对其进行评估,结果表明我们提出的多模态方法优于仅使用图像或文本或简单融合的方法。
Oct, 2020
本文介绍了使用 TheOnion 和 HuffPost 两个新闻网站的头条新闻构建的包含两万八千条标题的数据集,其中包含了 13K 个讽刺标题,以辅助对 Twitter 数据噪声问题进行的讽刺检测研究,并探讨了数据集的潜在用途。
Sep, 2022