用趣味标题刺激创造力:幽默生成的案例研究
本文讲述了 SemEval-2020 共享任务 “评估编辑新闻标题中的幽默”。任务的数据集包含应用了简短编辑使其有趣的新闻标题,这些编辑后的标题的有趣程度使用众包评级。该任务包括两个子任务,第一个是在 0-3 区间的幽默等级上估计标题的幽默程度。第二个子任务是为同一原始标题的一对编辑版本预测哪个更有趣。迄今为止,这是最受欢迎的共享计算幽默任务,吸引了 48 个团队参加第一个子任务和 31 个团队参加第二个子任务。
Aug, 2020
介绍了一份名为 Humicroedit 的新数据集,用于计算幽默研究。该数据集包含英文新闻标题及其被设计用来制造幽默的简单编辑版本。通过对数据集进行分析,基于传统幽默理论,如不协调、优越感和设置 / 串行,我们开发了基准分类器,可以预测编辑后的标题是否有趣,这是自动生成有趣新闻标题的第一步。
Jun, 2019
本研究提出了一种新的任务 —— 文体标语生成(SHG),通过将摘要和重构任务组合成一个多任务框架以及新颖的参数共享方案,为文摘添加了三个样式选项(幽默、浪漫和点击量讹诈),从而吸引更多读者。通过自动和人工评估,我们证明了 TitleStylist 可以生成具有幽默、浪漫和点击量诱导效果的标题。我们的模型生成的标题吸引力评分超过了现有技术的摘要模型 9.68%,甚至超过了人工编写的参考标题。
Apr, 2020
通过多步推理,我们探讨了一句笑话的生成。通过重构创造幽默的过程并开发工作原型来生成幽默。我们进行了涉及人类参与者的全面实验,将其与人类创造的笑话、零样本 GPT-4 生成的幽默和其他基准进行比较。评估侧重于所生成幽默的质量,以人工标注作为基准。我们的发现表明,多步推理方法始终改善了所生成幽默的质量。我们呈现了结果,并分享了我们实验中使用的数据集,以提供关于如何通过人工智能提升幽默生成的见解。
May, 2024
通过编辑文本,我们研究了大型语言模型(LLMs)是否能够生成用于幽默检测的合成数据。我们对现有的人类数据集进行了基准测试,并展示了当前的 LLMs 在判断幽默性和幽默检测的下游任务中,能够令人印象深刻地去除笑话。我们还将我们的方法扩展到了一个混合编码的英文 - 印地语幽默数据集,发现 GPT-4 的合成数据得到了双语注释者的高评价,并为幽默分类器提供了具有挑战性的对抗性例子。
Feb, 2024
本文探讨了 Cards Against Humanity 这一聚会游戏中的幽默,并在分析了包括 785K 个独特笑话在内的 30 万场游戏数据集的基础上,使用机器学习模型预测了获胜笑话,发现短小、粗俗、幼稚的笑话更容易获胜。
Oct, 2022
本文旨在测试自然语言生成(NLG)在幽默方面的能力,我们使用各种方法进行生成,包括从头开始训练 Seq2seq、微调中型 PLMs 和大型 PLMs(有和无微调)。我们使用一些由数字化的中国相声剧本组成的新数据集对这些方法进行了基准测试,并进行了人员评估,表明大规模预训练大大提高了相声生成的质量,但我们得出结论:幽默生成目前还处于起步阶段。
Jul, 2022
本研究实验比较了十二种自动方法来选择最有趣的标题,结果表明,负面情感、以人为本和词汇中心性最能匹配最有趣的标题,其次是正面情感。这些结果有助于理解幽默,并在文本和多模(视觉 + 文本)系统中设计更加引人入胜的对话代理人。
Jun, 2015
我们提供了一个独特的多模态偏好数据集,用于创意任务,在过去的八年中通过众包整理了超过 250 万个标注为《纽约客》周刊漫画字幕比赛的超过 2.2 亿个人类评分。通过结合 GPT4 和人类判断,建立了基于排名的评估策略,我们对模型生成的字幕质量提出了新的评估标准。实验证明了当前的 Fine-Tuning 方法在创意任务中的局限性,并且我们展示了即使是 GPT4 和 Claude 这样的最先进模型在生成幽默字幕方面也不及顶级人类参赛者。经过这项大规模的数据收集工作,我们将整个偏好数据集释放给研究界,促进 AI 幽默生成和评估的进一步发展。
Jun, 2024