用于讽刺检测的新闻标题数据集

Sep, 2022

News Headlines Dataset For Sarcasm Detection

Rishabh Misra

TL;DR本文介绍了使用 TheOnion 和 HuffPost 两个新闻网站的头条新闻构建的包含两万八千条标题的数据集，其中包含了 13K 个讽刺标题，以辅助对 Twitter 数据噪声问题进行的讽刺检测研究，并探讨了数据集的潜在用途。

Abstract

Past studies in sarcasm detection mostly make use of twitter datasets collected using hashtag-based supervision but such datasets are noisy in terms of labels and language. Furthermore, many tweets are replies to

sarcasm detection twitter datasets news headlines dataset theonion huffpost

发现论文，激发创造

使用混合神经网络进行讽刺语言检测

通过引入新的由新闻头条数据集组成的数据集，以及使用子神经网络和注意机制，本论文提出了一种有效识别铁 y 定义类的方法，其在分类精度方面优于基准线约 5%。

Aug, 2019

新闻分类数据集

本论文介绍了一份包含近 21 万篇新闻头条的数据集，收集自 HuffPost，并探讨了该数据集在自然语言处理领域的现有和潜在应用，这对于学习真实新闻的语法和语义至关重要，尤其在当前假新闻泛滥的背景下。

Sep, 2022

英印混合代码推文语料库用于讽刺检测

通过英 - 印混合码数据集，我们开发了一个基于随机森林分类器并进行了 10 折交叉验证的基线监督分类系统，该系统可以检测到社交媒体上的文字中的反讽，并标记每个标记的语言标签。该系统平均得分为 78.4%。

May, 2018

用于讽刺的大型自注释语料库

该论文介绍了自注释 Reddit 语料库（SARC），该语料库为讽刺研究以及训练和评估讽刺检测系统提供了大量的数据。每个陈述还被作者自行注释，并配有用户、主题和对话上下文。通过构建基准测试和评估基线方法，我们对该语料库进行了准确度评估。

Apr, 2017

BanglaSarc: 一个用于讽刺检测的数据集

本研究提出了专门用于孟加拉文文本数据的 Sarcasm 数据集（BanglaSarc），该数据集包含来自各种在线社交平台的 5112 个评论 / 状态和内容，将有助于研究识别讽刺和检测孟加拉语表达式等领域。

Sep, 2022

灾害背景下的讽刺检测

通过分析 HurricaneSARC 数据集，本文介绍了利用预训练语言模型检测灾难相关推文中的讽刺言辞的关键方法，并表明通过中间任务转移学习可以提高在 HurricaneSARC 数据集上的性能。

Aug, 2023

iSarcasm: 旨在表达讽刺的数据集

本文研究了文本挖掘中的讽刺检测，特别关注作者意图和读者解读的区别，介绍了作者直接标注的 iSarcasm 数据集，并指出现有方法在捕捉作者意图上的局限性，提出未来自然语言处理研究需要发展更优秀的检测方法。

Nov, 2019

一种通用的讽刺检测方法即将到来，当然！

对四个具有不同讽刺特征的讽刺数据集进行精调的讽刺检测模型的鲁棒性进行了测试，结果发现使用第三方标签进行精调的模型在内部数据集预测中表现更好，而大多数模型在跨数据集预测中无法很好地进行泛化，暗示一个数据集类型无法代表不同风格和领域的所有种类的讽刺。与现有数据集相比，本研究发布的新数据集上精调的模型在与其他数据集的泛化性能上表现最好。通过手动检查数据集和事后分析，我们发现泛化困难的原因在于讽刺实际上存在不同的领域和风格。我们认为未来的讽刺研究应考虑讽刺的广泛范围。

Apr, 2024

使用深度卷积神经网络深入研究讽刺推特

通过基于预训练的卷积神经网络提取情感，情绪和人格特征以及网络的基本特征，我们开发的模型可以有效区分讽刺语句并解决分类新数据的普适性问题。

Oct, 2016

反应式监督：一种收集讽刺数据的新方法

介绍了一种新的数据收集方法 —— 反应监督方法，利用在线对话的动态规律克服了现有数据收集技术的局限性，从而创建和发布了第一个具有讽刺视角标签和新的上下文特征的大规模推文数据集，预期将推动讽刺检测研究进展。该方法可应用于其他情感计算领域，从而开启新的研究机会。

Sep, 2020