讽刺基准:评估大型语言模型对讽刺理解的能力
研究了在社交媒体中检测讽刺语境下的对话背景、LSTM网络、不同平台之间差异对结果的影响以及定位句子语气的研究,通过定量分析和注意力机制判别出实验结果优于人工标注。
Aug, 2018
本研究探讨将常识知识融入到基于图卷积网络和预训练语言模型嵌入的模型中,用于识别口气讽刺的有效性,并在三个数据集上进行了实验,表明该方法不如基线模型表现优秀。
Sep, 2021
本研究旨在对英语计算讽刺研究的最新进展和趋势进行简要概述, 包括使用非监督预训练转换器在多模态环境中进行讽刺检测以及整合上下文以识别讽刺。我们介绍与讽刺相关的数据集、方法、趋势、问题、挑战和任务,提供针对讽刺的特征和其提取方法的汇总表,以及各种方法的性能分析,这些都可以帮助相关领域的研究人员了解讽刺检测中的最新技术实践。
Sep, 2022
本文介绍了使用MOSES模型对于含有讽刺言语的对话进行Sarcasm Explanation,以及在此基础上实现的Sarcasm detection, humour identification, 和 emotion recognition等自然语言理解任务,并且通过各种评估指标展示了该模型的优越性。
Nov, 2022
本研究探讨了生成预训练转换器(GPT)模型(包括GPT-3、InstructGPT、GPT-3.5和GPT-4)在检测自然语言中的讽刺的应用。该研究测试了不同大小和版本的精调和零-shot模型,并在Self-Annotated Reddit Corpus(SARC 2.0)的政治和均衡(pol-bal)部分的讽刺数据集上进行了评估。结果显示,在精调的情况下,最大的精调GPT-3模型在准确性和F1-score方面达到了0.81,超过了之前的模型。在零-shot的情况下,其中一个GPT-4模型的准确性为0.70,F1-score为0.75,其他模型得分较低。此外,每个版本的模型性能可能会有所改善或恶化,强调了需要在每个版本发布后重新评估性能的必要性。
Dec, 2023
对四个具有不同讽刺特征的讽刺数据集进行精调的讽刺检测模型的鲁棒性进行了测试,结果发现使用第三方标签进行精调的模型在内部数据集预测中表现更好,而大多数模型在跨数据集预测中无法很好地进行泛化,暗示一个数据集类型无法代表不同风格和领域的所有种类的讽刺。与现有数据集相比,本研究发布的新数据集上精调的模型在与其他数据集的泛化性能上表现最好。通过手动检查数据集和事后分析,我们发现泛化困难的原因在于讽刺实际上存在不同的领域和风格。我们认为未来的讽刺研究应考虑讽刺的广泛范围。
Apr, 2024
本文提出了一个多模态讽刺目标识别框架,采用从粗到细的方法,通过推理和预训练知识增强讽刺可解释性,在多模态讽刺中揭示复杂目标并减轻大型多模态模型潜在噪声的负面影响。实验结果表明,我们的模型在MSTI方法上表现出色,并在识别讽刺方面具有解释性。
May, 2024
通过引入SarcasmCue的新提示框架,本研究通过综合实证比较四个基准数据集,展示了提出的四种提示方法在探测人类讽刺方面的优越性,非顺序提示通常优于顺序提示。
Jul, 2024
本研究关注大型语言模型(LLMs)在讽刺理解方面的不足,指出现有模型在这一领域的表现远低于最新的预训练语言模型(PLMs)。研究发现,尽管GPT-4在多种提示方法中表现优异,整体上仍需对LLMs进行显著改进,以增强其对人类讽刺的理解能力。
Aug, 2024
本研究针对现有多模态隐喻和讽刺理解任务中数据集缺乏的问题,提出了NYK-MS基准,包含1583个隐喻样本和1578个讽刺样本,并进行了多轮高质量标注。研究发现,尽管大型语言模型在分类任务中表现不佳,但随着模型规模的增加,其在理解隐喻和讽刺的其他任务中的表现有所提升,验证了基准与现有数据集的一致性。
Sep, 2024