KoCoSa：韩语上下文感知讽刺检测数据集

Feb, 2024

KoCoSa：韩语上下文感知讽刺检测数据集

KoCoSa: Korean Context-aware Sarcasm Detection Dataset

Yumin Kim, Heejae Suh, Mingi Kim, Dongyeon Won, Hwanhee Lee

TL;DR该研究介绍了一个新的数据集，KoCoSa，用于韩语对话中的讽刺检测任务，并提供了用于该任务的基线系统。实验证明，基线系统在韩语讽刺检测任务中优于 GPT-3.5 等大型语言模型。

Abstract

sarcasm is a way of verbal irony where someone says the opposite of what they mean, often to ridicule a person, situation, or idea. It is often difficult to detect sarcasm in the →

sarcasm dialogue context korean sarcasm detection

发现论文，激发创造

利用上下文分隔符在在线话语中检测讽刺

本文使用 RoBERTa_large 对 Twitter 和 Reddit 数据集进行讽刺检测，并通过使用三种不同类型的输入来确定上下文在提高性能方面的重要性。我们表明，我们提出的架构在两个数据集中都具有竞争力，并且在 Reddit 数据集中增加分隔符可以提高 F1 分数的 5.13％。

Jun, 2020

BanglaSarc: 一个用于讽刺检测的数据集

本研究提出了专门用于孟加拉文文本数据的 Sarcasm 数据集（BanglaSarc），该数据集包含来自各种在线社交平台的 5112 个评论 / 状态和内容，将有助于研究识别讽刺和检测孟加拉语表达式等领域。

Sep, 2022

对最先进的大型语言模型在讽刺检测方面的评估

使用先进的语言表示模型和上下文驱动模型，对 Reddit 语料库进行分析，评估其性能并找到理想的讽刺检测方法。

Oct, 2023

iSarcasm: 旨在表达讽刺的数据集

本文研究了文本挖掘中的讽刺检测，特别关注作者意图和读者解读的区别，介绍了作者直接标注的 iSarcasm 数据集，并指出现有方法在捕捉作者意图上的局限性，提出未来自然语言处理研究需要发展更优秀的检测方法。

Nov, 2019

社交媒体上的计算机挖掘讽刺语言：系统综述

本研究旨在对英语计算讽刺研究的最新进展和趋势进行简要概述，包括使用非监督预训练转换器在多模态环境中进行讽刺检测以及整合上下文以识别讽刺。我们介绍与讽刺相关的数据集、方法、趋势、问题、挑战和任务，提供针对讽刺的特征和其提取方法的汇总表，以及各种方法的性能分析，这些都可以帮助相关领域的研究人员了解讽刺检测中的最新技术实践。

Sep, 2022

基于上下文、情感和情感特征的讽刺检测框架

本文提出一种模型，使用预训练的转换器和 CNN 捕捉上下文特征，用于捕捉蕴含在讽刺中的不一致性，并在社交网络平台和在线媒体的四个数据集上优于以前的最新成果。

Nov, 2022

用于讽刺的大型自注释语料库

该论文介绍了自注释 Reddit 语料库（SARC），该语料库为讽刺研究以及训练和评估讽刺检测系统提供了大量的数据。每个陈述还被作者自行注释，并配有用户、主题和对话上下文。通过构建基准测试和评估基线方法，我们对该语料库进行了准确度评估。

Apr, 2017

UTNLP 参加 SemEval-2022 任务 6：基于生成式和变异式数据增强的讽刺检测比较分析

本文介绍了 UTNLP 团队在 SemEval-2022 共享任务 6 中进行讽刺性评论检测的方法和结果，对比了不同模型和数据增强方法的效果，最后使用 RoBERTa 和数据突变增强的方法取得了最佳结果。

Apr, 2022

多模态讽刺检测：基于分层一致性建模与知识增强的研究

本文提出了一种基于层次结构的检测方法，通过多头交叉注意力机制和图神经网络同时探索文本和图像之间的原子级一致性和组成级一致性，利用丰富的外部知识资源进行讽刺检测，评估结果表明该模型优于现有的技术。

Oct, 2022

一种通用的讽刺检测方法即将到来，当然！

对四个具有不同讽刺特征的讽刺数据集进行精调的讽刺检测模型的鲁棒性进行了测试，结果发现使用第三方标签进行精调的模型在内部数据集预测中表现更好，而大多数模型在跨数据集预测中无法很好地进行泛化，暗示一个数据集类型无法代表不同风格和领域的所有种类的讽刺。与现有数据集相比，本研究发布的新数据集上精调的模型在与其他数据集的泛化性能上表现最好。通过手动检查数据集和事后分析，我们发现泛化困难的原因在于讽刺实际上存在不同的领域和风格。我们认为未来的讽刺研究应考虑讽刺的广泛范围。

Apr, 2024