iSarcasm: 旨在表达讽刺的数据集

Nov, 2019

iSarcasm: A Dataset of Intended Sarcasm

Silviu Oprea, Walid Magdy

TL;DR本文研究了文本挖掘中的讽刺检测，特别关注作者意图和读者解读的区别，介绍了作者直接标注的 iSarcasm 数据集，并指出现有方法在捕捉作者意图上的局限性，提出未来自然语言处理研究需要发展更优秀的检测方法。

Abstract

We consider the distinction between intended and perceived sarcasm in the context of textual sarcasm detection. The former occurs when an utterance is sarcastic from the perspective of its author, while the latte

sarcasm detection intended sarcasm perceived sarcasm isarcasm dataset nlp research

发现论文，激发创造

探究作者背景的作用在检测意图与感知讽刺中

本研究探讨了使用作者上下文对文本讽刺检测的影响，使用神经模型提取作者历史帖子的嵌入表示，并在两个 tweet 数据集上进行实验，一个是手动标注的讽刺数据集，另一个是基于标签的远程监督。我们在第二个数据集上实现了最先进的性能，但在手动标注的数据集上未能做到，表明基于远程监督捕捉的意图讽刺存在差异，与手动标注捕捉的感知讽刺不同。

Oct, 2019

社交媒体上的计算机挖掘讽刺语言：系统综述

本研究旨在对英语计算讽刺研究的最新进展和趋势进行简要概述，包括使用非监督预训练转换器在多模态环境中进行讽刺检测以及整合上下文以识别讽刺。我们介绍与讽刺相关的数据集、方法、趋势、问题、挑战和任务，提供针对讽刺的特征和其提取方法的汇总表，以及各种方法的性能分析，这些都可以帮助相关领域的研究人员了解讽刺检测中的最新技术实践。

Sep, 2022

一种通用的讽刺检测方法即将到来，当然！

对四个具有不同讽刺特征的讽刺数据集进行精调的讽刺检测模型的鲁棒性进行了测试，结果发现使用第三方标签进行精调的模型在内部数据集预测中表现更好，而大多数模型在跨数据集预测中无法很好地进行泛化，暗示一个数据集类型无法代表不同风格和领域的所有种类的讽刺。与现有数据集相比，本研究发布的新数据集上精调的模型在与其他数据集的泛化性能上表现最好。通过手动检查数据集和事后分析，我们发现泛化困难的原因在于讽刺实际上存在不同的领域和风格。我们认为未来的讽刺研究应考虑讽刺的广泛范围。

Apr, 2024

社交媒体文本中讽刺检测的研究视角

在社交媒体上大量使用讽刺文本会对目标用户产生生理影响，讽刺检测对于用户来说很困难，更对于机器来说是具有挑战性的。此论文讨论了各种讽刺检测技术及其相关数据集等，并总结了一些方法、挑战和未来的方向。

Apr, 2023

自动讽刺识别：一项调查

本文汇总了过去的研究成果，讨论了自动讽刺检测的数据集、方法、趋势和问题，并呈现了过去有关特征、注释技术和数据形式等不同方面的论文总结表格。关键技术包括半监督模式提取、基于标签的监督以及针对目标文本进行的上下文分析。

Feb, 2016

多模态社交平台中的讽刺检测

分析社交媒体上多模态信息中，表面情感和隐含情感之间的关系，探究图像在人类注释中的必要性，并提出了两种不同的计算框架来检测其中的讽刺色彩。结果表明，结合多模态信息的检测方法在各平台上均取得了良好的效果。

Aug, 2016

对最先进的大型语言模型在讽刺检测方面的评估

使用先进的语言表示模型和上下文驱动模型，对 Reddit 语料库进行分析，评估其性能并找到理想的讽刺检测方法。

Oct, 2023

英印混合代码推文语料库用于讽刺检测

通过英 - 印混合码数据集，我们开发了一个基于随机森林分类器并进行了 10 折交叉验证的基线监督分类系统，该系统可以检测到社交媒体上的文字中的反讽，并标记每个标记的语言标签。该系统平均得分为 78.4%。

May, 2018

KoCoSa：韩语上下文感知讽刺检测数据集

该研究介绍了一个新的数据集，KoCoSa，用于韩语对话中的讽刺检测任务，并提供了用于该任务的基线系统。实验证明，基线系统在韩语讽刺检测任务中优于 GPT-3.5 等大型语言模型。

Feb, 2024

SemEval-2022 任务 6：面向英语和阿拉伯语的基于 Transformer 的言外之意侦测模型 CS-UM6P

本文介绍了应用基于深度学习的模型以及预训练的语言模型，在英语和阿拉伯语中进行讽刺检测任务。我们的系统已参与了所有子任务，并在阿拉伯语子任务 A 中取得最佳表现，在子任务 B 中排名第二，在子任务 C 中分别在阿拉伯语和英语数据集中排名第 7 和第 11。

Jun, 2022