EMNLPNov, 2023

讽刺、幽默和讽剌生成中的人类评估综述

TL;DR人类评估是自然语言生成系统评估的黄金标准方法,但在幽默、讽刺和讽刺等复杂语言形式的生成中,选择评估者团队的特征至关重要,为了透明度和可复制性,应尽最大努力报告人口统计特征。我们通过对每种语言形式的概述以及对示例的分析,支持这些观点,分析不同参与者变量如何影响其解释。此外,我们对近期自然语言生成的作品进行了关键调查,评估在这个子领域的评估程序的报告情况非常缺乏,并且在招募方面严重依赖于众包平台。