Chumor 1.0: 来自若知吧的真正有趣且具有挑战性的中文幽默理解数据集

Jun, 2024

Chumor 1.0: 来自若知吧的真正有趣且具有挑战性的中文幽默理解数据集

Chumor 1.0: A Truly Funny and Challenging Chinese Humor Understanding Dataset from Ruo Zhi Ba

Ruiqi He, Yushu He, Longju Bai, Jiarui Liu, Zhenjie Sun...

TL;DR通过对 Ruo Zhi Ba 平台上的智力挑战和文化特定笑话进行注释，我们构建了一个名为 Chumor 的数据集，并通过 A/B 测试与两种先进的语言模型 GPT-4o 和 ERNIE Bot 进行人类解释评估，结果表明 Chumor 是对于 SOTA 语言模型也具有挑战性，而 Chumor 笑话的人类解释明显优于语言模型生成的解释。

Abstract

Existing humor datasets and evaluations predominantly focus on English, lacking resources for culturally nuanced humor in non-english languages like Chinese. To address this gap, we construct →

humor datasets non-english languages chumor ruo zhi ba explanation evaluation

发现论文，激发创造

探索中国幽默生成：关于双关成语的研究

该研究探讨了将最先进的语言模型应用于理解和生成中国幽默的能力，特别关注训练这些模型以创建寓言性语言。针对训练方法，研究采用了两种主要方法：对中型语言模型进行微调和对大型语言模型进行提示。经人工标注结果显示，这些模型能够生成幽默的寓言性语言，提示法证明是一种实用且有效的方法。但在生成能与人类创造力匹配的寓言性语言方面仍有改进的空间。

Mar, 2024

认真对待幽默：使用无趣的大型语言模型构建幽默数据集

通过编辑文本，我们研究了大型语言模型（LLMs）是否能够生成用于幽默检测的合成数据。我们对现有的人类数据集进行了基准测试，并展示了当前的 LLMs 在判断幽默性和幽默检测的下游任务中，能够令人印象深刻地去除笑话。我们还将我们的方法扩展到了一个混合编码的英文 - 印地语幽默数据集，发现 GPT-4 的合成数据得到了双语注释者的高评价，并为幽默分类器提供了具有挑战性的对抗性例子。

Feb, 2024

AI 有趣吗？HumorDB：一个经过精选的数据集和基准，用于研究图形幽默

通过 HumorDB 数据集，该研究论文介绍了一种用于提升视觉幽默理解能力的图像数据集，着重于触发幽默的微妙视觉线索，并缓解潜在的偏差。该数据集可以通过二元分类（有趣或无趣）、范围回归（将幽默性评分从 1 到 10 进行量化）和成对比较任务（哪个图像更有趣？）进行评估，有效捕捉了幽默感知的主观性。初步实验表明，虽然纯视觉模型面临困难，但视觉语言模型，特别是利用大型语言模型的模型，表现出有希望的结果。HumorDB 还展示了作为功能强大的大型多模态模型的一个有价值的零样本基准的潜力。我们在 CC BY 4.0 许可证下开源了数据集和代码。

Jun, 2024

语言模型能否制造乐趣？以中国相声为例的案例研究

本文旨在测试自然语言生成（NLG）在幽默方面的能力，我们使用各种方法进行生成，包括从头开始训练 Seq2seq、微调中型 PLMs 和大型 PLMs（有和无微调）。我们使用一些由数字化的中国相声剧本组成的新数据集对这些方法进行了基准测试，并进行了人员评估，表明大规模预训练大大提高了相声生成的质量，但我们得出结论：幽默生成目前还处于起步阶段。

Jul, 2022

自发幽默的多模态预测：一个新颖的数据集和初步结果

本文介绍了一种新的 Passau-SFCH 数据集，用于幽默和其情感和方向的自动分析，研究结果表明，对于幽默和其情感的自动分析，面部表情最有潜力，而文本特征最适合模拟幽默方向。

Sep, 2022

评估单口喜剧中的幽默系数：“你认为你很搞笑？

本文创建了一个通过标注观众的笑声来注释训练数据的幽默系数得分的新型评分机制的多模态幽默注释数据集，用于训练一个给予音频及相应文本一个五分量表中的 “有趣程度” 分数的模型，并比较了各种神经语言模型的幽默评分任务，其 QWK 准确度达到了 0.813。

Oct, 2021

UR-FUNNY：一个用于理解幽默的多模态语言数据集

本文介绍了一种称为 UR-FUNNY 的多模态数据集，该数据集开辟了解析表达幽默的多模态语言的研究领域，从而为自然语言处理社区提供了多模态幽默检测的框架。

Apr, 2019

人工智能中的幽默：巨规模众包偏好和漫画字幕基准

我们提供了一个独特的多模态偏好数据集，用于创意任务，在过去的八年中通过众包整理了超过 250 万个标注为《纽约客》周刊漫画字幕比赛的超过 2.2 亿个人类评分。通过结合 GPT4 和人类判断，建立了基于排名的评估策略，我们对模型生成的字幕质量提出了新的评估标准。实验证明了当前的 Fine-Tuning 方法在创意任务中的局限性，并且我们展示了即使是 GPT4 和 Claude 这样的最先进模型在生成幽默字幕方面也不及顶级人类参赛者。经过这项大规模的数据收集工作，我们将整个偏好数据集释放给研究界，促进 AI 幽默生成和评估的进一步发展。

Jun, 2024

众包标注的西班牙语幽默分析语料库

该论文提出了一个由 27,000 个写在西班牙语 Tweet 中的幽默值和滑稽得分的人工标注语料库，可用于幽默检测和解决主观性问题。

Oct, 2017

DuanzAI：带有幽默理解提示的俚语增强语言模型

通过 DuanzAI 方法实现了对汉语俚语的深度理解，以构建与人类表达更加贴合的回应，并发布了先进的聊天机器人 ChatDAI 的代码。

May, 2024