用趣味标题刺激创造力：幽默生成的案例研究

Feb, 2020

用趣味标题刺激创造力：幽默生成的案例研究

Stimulating Creativity with FunLines: A Case Study of Humor Generation in Headlines

Nabil Hossain, John Krumm, Tanvir Sajed, Henry Kautz

TL;DR通过引入一款名为 FunLines 的竞争性游戏，玩家可以对新闻标题进行编辑，从而使它们更有趣。通过这个游戏，我们可以以很低的成本获得有用的幽默数据集，并通过该数据集培训幽默分类模型，从而达到优越的性能表现。

Abstract

Building datasets of creative text, such as humor, is quite challenging. We introduce FunLines, a competitive game where players edit news headlines to make them funny, and where they rate the funniness of headlines edited by others. FunLines makes the humor generation process fun, int

creative text dataset humor generation crowdsourcing performance feedback humor classification models

发现论文，激发创造

SemEval-2020 第 7 项任务：评估编辑新闻标题中的幽默

本文讲述了 SemEval-2020 共享任务 “评估编辑新闻标题中的幽默”。任务的数据集包含应用了简短编辑使其有趣的新闻标题，这些编辑后的标题的有趣程度使用众包评级。该任务包括两个子任务，第一个是在 0-3 区间的幽默等级上估计标题的幽默程度。第二个子任务是为同一原始标题的一对编辑版本预测哪个更有趣。迄今为止，这是最受欢迎的共享计算幽默任务，吸引了 48 个团队参加第一个子任务和 31 个团队参加第二个子任务。

Aug, 2020

总统发誓剪下税款的头发：创意文本编辑幽默标题的数据集与分析

介绍了一份名为 Humicroedit 的新数据集，用于计算幽默研究。该数据集包含英文新闻标题及其被设计用来制造幽默的简单编辑版本。通过对数据集进行分析，基于传统幽默理论，如不协调、优越感和设置 / 串行，我们开发了基准分类器，可以预测编辑后的标题是否有趣，这是自动生成有趣新闻标题的第一步。

Jun, 2019

标题中的钩子：学习使用受控样式生成标题

本研究提出了一种新的任务 —— 文体标语生成（SHG），通过将摘要和重构任务组合成一个多任务框架以及新颖的参数共享方案，为文摘添加了三个样式选项（幽默、浪漫和点击量讹诈），从而吸引更多读者。通过自动和人工评估，我们证明了 TitleStylist 可以生成具有幽默、浪漫和点击量诱导效果的标题。我们的模型生成的标题吸引力评分超过了现有技术的摘要模型 9.68％，甚至超过了人工编写的参考标题。

Apr, 2020

逆向工程讽刺，或 “计算幽默论文” 尽管取得重大进展仍被接受

本文深入探讨了讽刺新闻标题的语法和语义结构，找到了制造幽默的关键词和概念，为构建制造幽默的系统提供了新的见解。

Jan, 2019

幽默机制：运用多步推理推动幽默生成

通过多步推理，我们探讨了一句笑话的生成。通过重构创造幽默的过程并开发工作原型来生成幽默。我们进行了涉及人类参与者的全面实验，将其与人类创造的笑话、零样本 GPT-4 生成的幽默和其他基准进行比较。评估侧重于所生成幽默的质量，以人工标注作为基准。我们的发现表明，多步推理方法始终改善了所生成幽默的质量。我们呈现了结果，并分享了我们实验中使用的数据集，以提供关于如何通过人工智能提升幽默生成的见解。

May, 2024

认真对待幽默：使用无趣的大型语言模型构建幽默数据集

通过编辑文本，我们研究了大型语言模型（LLMs）是否能够生成用于幽默检测的合成数据。我们对现有的人类数据集进行了基准测试，并展示了当前的 LLMs 在判断幽默性和幽默检测的下游任务中，能够令人印象深刻地去除笑话。我们还将我们的方法扩展到了一个混合编码的英文 - 印地语幽默数据集，发现 GPT-4 的合成数据得到了双语注释者的高评价，并为幽默分类器提供了具有挑战性的对抗性例子。

Feb, 2024

Cards Against AI: 预测填空式聚会游戏中的幽默

本文探讨了 Cards Against Humanity 这一聚会游戏中的幽默，并在分析了包括 785K 个独特笑话在内的 30 万场游戏数据集的基础上，使用机器学习模型预测了获胜笑话，发现短小、粗俗、幼稚的笑话更容易获胜。

Oct, 2022

语言模型能否制造乐趣？以中国相声为例的案例研究

本文旨在测试自然语言生成（NLG）在幽默方面的能力，我们使用各种方法进行生成，包括从头开始训练 Seq2seq、微调中型 PLMs 和大型 PLMs（有和无微调）。我们使用一些由数字化的中国相声剧本组成的新数据集对这些方法进行了基准测试，并进行了人员评估，表明大规模预训练大大提高了相声生成的质量，但我们得出结论：幽默生成目前还处于起步阶段。

Jul, 2022

集体话语中的幽默:《纽约客》漫画字幕比赛中的无监督趣味性检测

本研究实验比较了十二种自动方法来选择最有趣的标题，结果表明，负面情感、以人为本和词汇中心性最能匹配最有趣的标题，其次是正面情感。这些结果有助于理解幽默，并在文本和多模（视觉 + 文本）系统中设计更加引人入胜的对话代理人。

Jun, 2015

人工智能中的幽默：巨规模众包偏好和漫画字幕基准

我们提供了一个独特的多模态偏好数据集，用于创意任务，在过去的八年中通过众包整理了超过 250 万个标注为《纽约客》周刊漫画字幕比赛的超过 2.2 亿个人类评分。通过结合 GPT4 和人类判断，建立了基于排名的评估策略，我们对模型生成的字幕质量提出了新的评估标准。实验证明了当前的 Fine-Tuning 方法在创意任务中的局限性，并且我们展示了即使是 GPT4 和 Claude 这样的最先进模型在生成幽默字幕方面也不及顶级人类参赛者。经过这项大规模的数据收集工作，我们将整个偏好数据集释放给研究界，促进 AI 幽默生成和评估的进一步发展。

Jun, 2024