讽刺、幽默和讽剌生成中的人类评估综述

EMNLPNov, 2023

讽刺、幽默和讽剌生成中的人类评估综述

The Iron(ic) Melting Pot: Reviewing Human Evaluation in Humour, Irony and Sarcasm Generation

Tyler Loakman, Aaron Maladry, Chenghua Lin

TL;DR人类评估是自然语言生成系统评估的黄金标准方法，但在幽默、讽刺和讽刺等复杂语言形式的生成中，选择评估者团队的特征至关重要，为了透明度和可复制性，应尽最大努力报告人口统计特征。我们通过对每种语言形式的概述以及对示例的分析，支持这些观点，分析不同参与者变量如何影响其解释。此外，我们对近期自然语言生成的作品进行了关键调查，评估在这个子领域的评估程序的报告情况非常缺乏，并且在招募方面严重依赖于众包平台。

Abstract

human evaluation is often considered to be the gold standard method of evaluating a natural language generation system. However, whilst its importance is accepted by the community at large, the quality of its exe

human evaluation natural language generation system esoteric forms of language evaluator panels demographic characteristics

发现论文，激发创造

2020 年讽刺检测共享任务报告

研究发现，找出人们的反讽和言语讽刺对于理解他们的实际情感和信仰至关重要。因此，反讽分析已成为自然语言处理中一个热门的研究问题。本文作为 FigLang2020 会议的一部分，介绍了一个 sarcasm detection 共享任务，旨在进行基准研究，以分析最先进的技术，推动该领域的进展。

May, 2020

文本生成的评估：一项调查

该文章调查了近年来开发的自然语言生成（NLG）系统的评估方法。将 NLG 评估方法分为三类，讨论了每种类别取得的进展和仍然面临的挑战，重点关注最近提出的 NLG 任务和神经 NLG 模型的评估。最后提出了自动文本摘要和长文本生成的两个任务特定的 NLG 评估示例，并提出了未来的研究方向。

Jun, 2020

人类评估中的真实性差距

本文提出 NLG 评估标准协议中存在的假设并分析了其局限性，同时提出了一个更理论严谨的改进方案，并针对开放式任务提出了新的 SPA 人类评估协议。使用 SPA 进行人类评估时，可以使用系统级概率评估恢复 GPT-3 模型大小排序且差异具有统计学意义。

May, 2022

将主观众评估作为改进自然语言生成的附加客观标准的估计

本文探讨在多任务学习设置中，使用主观评估作为语言生成模型训练的一部分，并使用群众创作对话语料库对六种不同的语言生成模型进行微调。评估显示，多任务学习的模型生成的话语在主观上评分最高，且在推动对话发展、无冒犯性等方面得分最高。因此，将来可以研究将主观人类评估纳入语言生成模型训练中，从而在开发过程中更好地与人类用户进行交互。

Apr, 2021

评判评判者：针对在线评论生成的神经语言模型的大规模评估研究

本文研究自然语言生成的评估方法，并通过自动化评估和人工评估的比较，发现词汇重叠是自然语言生成的较好评估指标，而人工评估与自动化评估在排名上存在较大差异，因此呼吁重新考虑自然语言生成的评估目标。

Jan, 2019

使用神经网络基准进行非上下文讽刺建模

本文介绍一种基于概率建模的新颖方法，通过使用人类讽刺基准对神经网络进行训练，识别、分类和学习讽刺文本的特征，并建立一个对细微差异敏感的情感分析模式，以实现更自然、更吸引人的对话系统。

Nov, 2017

在多模态对话中解释（讽刺性）话语以提高情感理解能力

本文介绍了使用 MOSES 模型对于含有讽刺言语的对话进行 Sarcasm Explanation，以及在此基础上实现的 Sarcasm detection, humour identification, 和 emotion recognition 等自然语言理解任务，并且通过各种评估指标展示了该模型的优越性。

Nov, 2022

逆向工程讽刺，或 “计算幽默论文” 尽管取得重大进展仍被接受

本文深入探讨了讽刺新闻标题的语法和语义结构，找到了制造幽默的关键词和概念，为构建制造幽默的系统提供了新的见解。

Jan, 2019

评估大型语言模型对隐晦与讽刺的理解能力：使用阿斯伯格综合症筛查测试

该研究使用标准化测试来检验最近的大型语言模型（LLMs）理解人类微妙交流的能力，结果发现虽然它们在理解隐喻方面得到了提升，但对于理解讽刺的提升并未观察到，这表明必须采取另一种方法使 LLMs 具备理解讽刺的能力。

Sep, 2023

所有 ' 人类 ' 皆非黄金：评估生成文本的人类评估

研究评估非专家区分人工和机器生成文本 (使用 GPT2 和 GPT3) 的能力，指出评估者不经培训情况下很难区分，通过三种方法培训后的准确率提高到了 55%，但在三个领域中并没有显著提高。作者分析了训练不足的人类评估在自然语言生成领域的作用，并提供了改进人工评估的建议。

Jun, 2021