讽刺基准：评估大型语言模型对讽刺理解的能力

Aug, 2024

讽刺基准：评估大型语言模型对讽刺理解的能力

SarcasmBench: Towards Evaluating Large Language Models on Sarcasm Understanding

Yazhou Zhang, Chunwang Zou, Zheng Lian, Prayag Tiwari, Jing Qin

TL;DR本研究聚焦于大型语言模型（LLMs）在讽刺理解方面的不足，制定了针对讽刺检测的基准评估。通过对当前顶尖的LLMs和预训练语言模型的比较，发现现有LLMs在讽刺检测上的表现低于监督学习的基准，尤其是在少量样本提示下，其表现优于其他方法，指出了提升LLMs理解人类讽刺能力的必要性。

Abstract

In the era of Large Language Models (LLMs), the task of ``System I''~-~the fast, unconscious, and intuitive tasks, e.g., sentiment analysis, text classification, etc., have been argued to be successfully solved. However, →

发现论文，激发创造

基于对话背景的讽刺分析

研究了在社交媒体中检测讽刺语境下的对话背景、LSTM网络、不同平台之间差异对结果的影响以及定位句子语气的研究，通过定量分析和注意力机制判别出实验结果优于人工标注。

Aug, 2018

通识知识是否有助于检测讽刺？

本研究探讨将常识知识融入到基于图卷积网络和预训练语言模型嵌入的模型中，用于识别口气讽刺的有效性，并在三个数据集上进行了实验，表明该方法不如基线模型表现优秀。

Sep, 2021

社交媒体上的计算机挖掘讽刺语言：系统综述

本研究旨在对英语计算讽刺研究的最新进展和趋势进行简要概述, 包括使用非监督预训练转换器在多模态环境中进行讽刺检测以及整合上下文以识别讽刺。我们介绍与讽刺相关的数据集、方法、趋势、问题、挑战和任务，提供针对讽刺的特征和其提取方法的汇总表，以及各种方法的性能分析，这些都可以帮助相关领域的研究人员了解讽刺检测中的最新技术实践。

Sep, 2022

在多模态对话中解释（讽刺性）话语以提高情感理解能力

本文介绍了使用MOSES模型对于含有讽刺言语的对话进行Sarcasm Explanation，以及在此基础上实现的Sarcasm detection, humour identification, 和 emotion recognition等自然语言理解任务，并且通过各种评估指标展示了该模型的优越性。

Nov, 2022

基于OpenAI GPT模型的讽刺检测研究

本研究探讨了生成预训练转换器（GPT）模型（包括GPT-3、InstructGPT、GPT-3.5和GPT-4）在检测自然语言中的讽刺的应用。该研究测试了不同大小和版本的精调和零-shot模型，并在Self-Annotated Reddit Corpus（SARC 2.0）的政治和均衡（pol-bal）部分的讽刺数据集上进行了评估。结果显示，在精调的情况下，最大的精调GPT-3模型在准确性和F1-score方面达到了0.81，超过了之前的模型。在零-shot的情况下，其中一个GPT-4模型的准确性为0.70，F1-score为0.75，其他模型得分较低。此外，每个版本的模型性能可能会有所改善或恶化，强调了需要在每个版本发布后重新评估性能的必要性。

Dec, 2023

一种通用的讽刺检测方法即将到来，当然！

对四个具有不同讽刺特征的讽刺数据集进行精调的讽刺检测模型的鲁棒性进行了测试，结果发现使用第三方标签进行精调的模型在内部数据集预测中表现更好，而大多数模型在跨数据集预测中无法很好地进行泛化，暗示一个数据集类型无法代表不同风格和领域的所有种类的讽刺。与现有数据集相比，本研究发布的新数据集上精调的模型在与其他数据集的泛化性能上表现最好。通过手动检查数据集和事后分析，我们发现泛化困难的原因在于讽刺实际上存在不同的领域和风格。我们认为未来的讽刺研究应考虑讽刺的广泛范围。

Apr, 2024

CofiPara：一种用于大规模多模态模型的粗糙-精细范式的多模态讽刺目标识别方法

本文提出了一个多模态讽刺目标识别框架，采用从粗到细的方法，通过推理和预训练知识增强讽刺可解释性，在多模态讽刺中揭示复杂目标并减轻大型多模态模型潜在噪声的负面影响。实验结果表明，我们的模型在MSTI方法上表现出色，并在识别讽刺方面具有解释性。

May, 2024

大型语言模型中的讽刺检测是一种逐步推理过程吗？

通过引入SarcasmCue的新提示框架，本研究通过综合实证比较四个基准数据集，展示了提出的四种提示方法在探测人类讽刺方面的优越性，非顺序提示通常优于顺序提示。

Jul, 2024

评估大型语言模型对讽刺理解的能力

本研究关注大型语言模型（LLMs）在讽刺理解方面的不足，指出现有模型在这一领域的表现远低于最新的预训练语言模型（PLMs）。研究发现，尽管GPT-4在多种提示方法中表现优异，整体上仍需对LLMs进行显著改进，以增强其对人类讽刺的理解能力。

Aug, 2024

NYK-MS：一个注释完善的多模态隐喻和讽刺理解基准在卡通字幕数据集上的应用

本研究针对现有多模态隐喻和讽刺理解任务中数据集缺乏的问题，提出了NYK-MS基准，包含1583个隐喻样本和1578个讽刺样本，并进行了多轮高质量标注。研究发现，尽管大型语言模型在分类任务中表现不佳，但随着模型规模的增加，其在理解隐喻和讽刺的其他任务中的表现有所提升，验证了基准与现有数据集的一致性。

Sep, 2024