用于讽刺的大型自注释语料库

Apr, 2017

A Large Self-Annotated Corpus for Sarcasm

Mikhail Khodak, Nikunj Saunshi, Kiran Vodrahalli

TL;DR该论文介绍了自注释 Reddit 语料库（SARC），该语料库为讽刺研究以及训练和评估讽刺检测系统提供了大量的数据。每个陈述还被作者自行注释，并配有用户、主题和对话上下文。通过构建基准测试和评估基线方法，我们对该语料库进行了准确度评估。

Abstract

We introduce the self-annotated reddit corpus (SARC), a large corpus for sarcasm research and for training and →

self-annotated reddit corpus sarcasm research sarcasm detection training evaluating

发现论文，激发创造

获取在线对话中讽刺的可靠注释

本文探讨了利用 Mechanical Turk 上未经培训的注记者实现高度可靠的讽刺标注的标注方法，说明了使用大量常见的统计可靠性措施，如 Kappa，Karger，Majority Class 和 EM，而更复杂的措施对于我们的数据似乎没有产生更好的效果。

Sep, 2017

构建和表征具有多样化的对话中讽刺用语语料库

本文描述了如何通过构建一个大规模、高度多样化的线上辩论论坛对话语料库及其对讽刺言语两种分类构建创新方法，使用词汇 - 语法线索可准确检索出讽刺言语，并在简单特征和弱监督自然语言模式学习的实验中得到了较高的表现。

Sep, 2017

对最先进的大型语言模型在讽刺检测方面的评估

使用先进的语言表示模型和上下文驱动模型，对 Reddit 语料库进行分析，评估其性能并找到理想的讽刺检测方法。

Oct, 2023

BanglaSarc: 一个用于讽刺检测的数据集

本研究提出了专门用于孟加拉文文本数据的 Sarcasm 数据集（BanglaSarc），该数据集包含来自各种在线社交平台的 5112 个评论 / 状态和内容，将有助于研究识别讽刺和检测孟加拉语表达式等领域。

Sep, 2022

情感识别讽刺言语的多模态语料库

本论文针对识别嘲讽表达中的情感这一未被探索的任务，使用了最近发布的多模态嘲讽检测数据集（MUStARD）进行研究，并修正了其中的错误标签，最终将数据集标记上情感、情感强度和具体嘲讽类型，并提出多模态融合模型，用于嘲讽情感识别，表现优于现有的技术水平。

Jun, 2022

KoCoSa：韩语上下文感知讽刺检测数据集

该研究介绍了一个新的数据集，KoCoSa，用于韩语对话中的讽刺检测任务，并提供了用于该任务的基线系统。实验证明，基线系统在韩语讽刺检测任务中优于 GPT-3.5 等大型语言模型。

Feb, 2024

自动讽刺识别：一项调查

本文汇总了过去的研究成果，讨论了自动讽刺检测的数据集、方法、趋势和问题，并呈现了过去有关特征、注释技术和数据形式等不同方面的论文总结表格。关键技术包括半监督模式提取、基于标签的监督以及针对目标文本进行的上下文分析。

Feb, 2016

利用上下文分隔符在在线话语中检测讽刺

本文使用 RoBERTa_large 对 Twitter 和 Reddit 数据集进行讽刺检测，并通过使用三种不同类型的输入来确定上下文在提高性能方面的重要性。我们表明，我们提出的架构在两个数据集中都具有竞争力，并且在 Reddit 数据集中增加分隔符可以提高 F1 分数的 5.13％。

Jun, 2020

反应式监督：一种收集讽刺数据的新方法

介绍了一种新的数据收集方法 —— 反应监督方法，利用在线对话的动态规律克服了现有数据收集技术的局限性，从而创建和发布了第一个具有讽刺视角标签和新的上下文特征的大规模推文数据集，预期将推动讽刺检测研究进展。该方法可应用于其他情感计算领域，从而开启新的研究机会。

Sep, 2020

社交媒体上的计算机挖掘讽刺语言：系统综述

本研究旨在对英语计算讽刺研究的最新进展和趋势进行简要概述，包括使用非监督预训练转换器在多模态环境中进行讽刺检测以及整合上下文以识别讽刺。我们介绍与讽刺相关的数据集、方法、趋势、问题、挑战和任务，提供针对讽刺的特征和其提取方法的汇总表，以及各种方法的性能分析，这些都可以帮助相关领域的研究人员了解讽刺检测中的最新技术实践。

Sep, 2022