认真对待幽默：使用无趣的大型语言模型构建幽默数据集

Feb, 2024

认真对待幽默：使用无趣的大型语言模型构建幽默数据集

Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models

Zachary Horvitz, Jingru Chen, Rahul Aditya, Harshvardhan Srivastava, Robert West...

TL;DR通过编辑文本，我们研究了大型语言模型（LLMs）是否能够生成用于幽默检测的合成数据。我们对现有的人类数据集进行了基准测试，并展示了当前的 LLMs 在判断幽默性和幽默检测的下游任务中，能够令人印象深刻地去除笑话。我们还将我们的方法扩展到了一个混合编码的英文 - 印地语幽默数据集，发现 GPT-4 的合成数据得到了双语注释者的高评价，并为幽默分类器提供了具有挑战性的对抗性例子。

Abstract

Humor is a fundamental facet of human cognition and interaction. Yet, despite recent advances in natural language processing, humor detection remains a challenging task that is complicated by the scarcity of data

humor detection natural language processing large language models synthetic data adversarial examples

发现论文，激发创造

语言模型能在 YouTube 短视频中大笑吗？

使用 GPT-3.5 过滤与嘲笑相关的语言与视觉元素，通过时间戳和文字解释为每个视频注释，以提高大型语言模型对视频幽默的理解。

Oct, 2023

ChatGPT 很有趣，但并不是滑稽！幽默仍然是具有挑战性的大型语言模型

利用促发实验，探索 ChatGPT 的幽默感，发现其不能生成新的笑话，但能够解释、分类有效的笑话，对于无效笑话则提供虚构解释。ChatGPT 还没有完全解决计算幽默的问题，但是它可以成为 “有趣” 机器的一大飞跃。

Jun, 2023

语言模型能否制造乐趣？以中国相声为例的案例研究

本文旨在测试自然语言生成（NLG）在幽默方面的能力，我们使用各种方法进行生成，包括从头开始训练 Seq2seq、微调中型 PLMs 和大型 PLMs（有和无微调）。我们使用一些由数字化的中国相声剧本组成的新数据集对这些方法进行了基准测试，并进行了人员评估，表明大规模预训练大大提高了相声生成的质量，但我们得出结论：幽默生成目前还处于起步阶段。

Jul, 2022

从广义的笑声到个性化的轻笑：发挥数据融合在主观幽默检测中的力量

我们选择了滑稽任务，因为滑稽任务严重依赖于幽默感，它是基本主观的。我们的实验表明，在训练过程中，通过包含个性化数据，滑稽检测的任务获得了极大的益处。

Dec, 2023

人工智能中的幽默：巨规模众包偏好和漫画字幕基准

我们提供了一个独特的多模态偏好数据集，用于创意任务，在过去的八年中通过众包整理了超过 250 万个标注为《纽约客》周刊漫画字幕比赛的超过 2.2 亿个人类评分。通过结合 GPT4 和人类判断，建立了基于排名的评估策略，我们对模型生成的字幕质量提出了新的评估标准。实验证明了当前的 Fine-Tuning 方法在创意任务中的局限性，并且我们展示了即使是 GPT4 和 Claude 这样的最先进模型在生成幽默字幕方面也不及顶级人类参赛者。经过这项大规模的数据收集工作，我们将整个偏好数据集释放给研究界，促进 AI 幽默生成和评估的进一步发展。

Jun, 2024

UR-FUNNY：一个用于理解幽默的多模态语言数据集

本文介绍了一种称为 UR-FUNNY 的多模态数据集，该数据集开辟了解析表达幽默的多模态语言的研究领域，从而为自然语言处理社区提供了多模态幽默检测的框架。

Apr, 2019

幽默检测：一个变形金刚笑到最后

本文提出新的任务：判断一个笑话是否幽默，通过建立基于 Reddit 站点上近 16,000 标记实例的幽默评分模型，使用 Transformer 体系结构实现语句上下文的学习，取得了与人类表现可比较的成果，并在短笑话和双关语数据集上取得了 93.1% 和 98.6% 的 F-measure，这一方法超过了以前用于这些任务的所有先前工作。

Aug, 2019

使用大型语言模型增强讽刺检测中的情感特征

本研究介绍了一种用于讽刺检测的新方法，采用基于提示的学习的大型语言模型（LLMs）来促进以情感为中心的文本增强。与传统的讽刺检测技术相比，通常由于依赖静态的语言特征和预定义的知识库，往往忽视了讽刺中至关重要的微妙情感维度。相反，我们的方法通过将微妙的情感线索与经过增强的 LLMs 相结合，整合到三个广泛应用于讽刺检测中的基准预训练 NLP 模型（BERT、T5 和 GPT-2）中来增强检测过程。我们使用 SemEval-2018 Task 3 数据集评估了我们的方法，并观察到在讽刺检测能力方面得到了显著的增强。

Apr, 2024

小而有趣：基于反馈的幽默提炼方法

大语言模型通过模仿教师反馈进行提炼来传递知识，但在需要复杂的语言理解和创造力的任务上存在性能差距。本研究通过给大语言模型分配双重角色，作为生成数据的 “教师” 和评估学生表现的 “评论家”，研究了与教师的补充指导相关的影响。实验结果表明，将反馈引入到过程中可以显著缩小小语言模型与其大型对应物之间的性能差距，相比纯粹依靠模仿。因此，我们的研究凸显了在通过提炼传递复杂语言能力时，使用反馈作为额外维度的潜力。

Feb, 2024

笑脸头：Transformer 能否识别句子中的幽默元素？

通过对自动检测幽默的研究，我们训练了基于转换器的模型，并分析了幽默识别模型，进一步提高了模型性能和训练方法。

May, 2021