SaRoCo: 检测罗马尼亚新闻文章中的讽刺

ACLMay, 2021

SaRoCo: 检测罗马尼亚新闻文章中的讽刺

SaRoCo: Detecting Satire in a Novel Romanian Corpus of News Articles

Ana-Cristina Rogoz, Mihaela Gaman, Radu Tudor Ionescu

TL;DR使用两个深层神经模型，在罗马尼亚新闻中检测幽默的机器水平准确率不高，表明未来研究有足够的改进空间。

Abstract

In this work, we introduce a corpus for satire detection in romanian news. We gathered 55,608 public news articles from multiple real and

satire detection romanian news corpus language neural models

发现论文，激发创造

一种新的对比学习方法用于 RoCliCo 上的点击诱饵检测：一份罗马尼亚新闻文章的点击诱饵语料库

为了增加收入，新闻网站经常使用虚假新闻标题，诱使用户点击标题并阅读完整的新闻。点击诱骗检测是一项旨在自动检测这种虚假广告，并避免浪费在线用户宝贵时间的任务。我们介绍了一个新颖的罗马尼亚点击诱骗语料库（RoCliCo），包括 8,313 个新闻样本，手动注释了点击诱骗和非点击诱骗标签。此外，我们用 4 种机器学习方法进行实验，从手工模型到循环和基于转换器的神经网络，以建立一组有竞争力的基准。我们还进行了加权投票集成实验。在考虑的基准中，我们提出了一种新颖的基于 BERT 的对比学习模型，该模型学习将新闻标题和内容编码成一个深度度量空间，使得非点击诱骗新闻的标题和内容具有高余弦相似度，而点击诱骗新闻的标题和内容具有低余弦相似度。我们的数据集和代码可在此 URL 公开下载。

Oct, 2023

MOROCO：摩尔多瓦和罗马尼亚方言语料库

介绍了 MOldavian 和 ROmanian 方言语料库（MOROCO），包含来自六个主题的 33564 个文本样本和用于分类任务的标签，使用基于字符串核的浅层方法和包含 Squeeze-and-Excitation 块的字符级卷积神经网络的深层方法进行实验和研究了最具有区分性的特征。

Jan, 2019

针对罗马尼亚讽刺检测和情感分析的对抗胶囊网络

基于对抗可训练和胶囊网络的调优，提出了一种优化了的自然语言处理模型，可用于罗马尼亚语的讽刺检测和情感分析任务，对已有方法进行了超越，准确率高达 99.08%。

Jun, 2023

对抗性训练在讽刺检测中的应用：对混淆变量的控制

本文介绍了一种新的用于讽刺检测的模型，该模型包括对抗性部分以控制发布源的混杂变量，最终得到了可观的讽刺分类性能和显著下降的发布分类性能。通过分析得出，对抗性组件是该模型关注讽刺语言属性的关键。

Feb, 2019

使用注意力机制和语言特征的讽刺新闻检测和分析

该研究通过引入神经网络和关注机制，考虑段落级别的语言特征来有效识别讽刺新闻，揭示重要的特征在不同级别的作用差异。

Sep, 2017

AlbNews：用于阿尔巴尼亚语主题建模的标题语料库

本论文介绍了 AlbNews，这是一个包含 600 个主题标记的阿尔巴尼亚新闻标题和 2600 个未标记标题的集合，可用于进行主题建模研究。我们报告了一些传统机器学习分类器使用 AlbNews 样本进行训练的初始分类分数。结果显示基本模型超过了集成学习模型，并可作为未来实验的基准。

Feb, 2024

英文新闻文章句子级主观性检测语料库

该研究介绍了一个用于句子级别主体性检测的新语料库，其中包括英语政治事务的主观句子和客观句子，同时开发了新的标注指南和使用最新的多语言转换模型，使得该语料库能够用于英语和其他语言的主体性检测，并在其他语言丰富资源的情况下，提高了该任务的结果。

May, 2023

CroSentiNews2.0：新闻情感句子语料库

该研究提供了一个句子级情感数据集，覆盖了克罗地亚新闻领域，在已有的 3000 个注释文本的基础上，增加了 14500 个带有 5 个类别标签的注释句子出现。研究者在注释过程中提供了基线分数和标注者间的一致性分析。

May, 2023

使用文本和视觉线索进行讽刺检测的多模态方法

本文研究了关于讽刺新闻的多模态方法，并使用基于 ViLBERT 模型的新数据集对其进行评估，结果表明我们提出的多模态方法优于仅使用图像或文本或简单融合的方法。

Oct, 2020

用于讽刺检测的新闻标题数据集

本文介绍了使用 TheOnion 和 HuffPost 两个新闻网站的头条新闻构建的包含两万八千条标题的数据集，其中包含了 13K 个讽刺标题，以辅助对 Twitter 数据噪声问题进行的讽刺检测研究，并探讨了数据集的潜在用途。

Sep, 2022