人工智能中的幽默：巨规模众包偏好和漫画字幕基准

Jun, 2024

人工智能中的幽默：巨规模众包偏好和漫画字幕基准

Humor in AI: Massive Scale Crowd-Sourced Preferences and Benchmarks for Cartoon Captioning

Jifan Zhang, Lalit Jain, Yang Guo, Jiayi Chen, Kuan Lok Zhou...

TL;DR我们提供了一个独特的多模态偏好数据集，用于创意任务，在过去的八年中通过众包整理了超过 250 万个标注为《纽约客》周刊漫画字幕比赛的超过 2.2 亿个人类评分。通过结合 GPT4 和人类判断，建立了基于排名的评估策略，我们对模型生成的字幕质量提出了新的评估标准。实验证明了当前的 Fine-Tuning 方法在创意任务中的局限性，并且我们展示了即使是 GPT4 和 Claude 这样的最先进模型在生成幽默字幕方面也不及顶级人类参赛者。经过这项大规模的数据收集工作，我们将整个偏好数据集释放给研究界，促进 AI 幽默生成和评估的进一步发展。

Abstract

We present a novel multimodal preference dataset for creative tasks, consisting of over 250 million human ratings on more than 2.2 million captions, collected through crowdsourcing rating data for The New Yorker'

multimodal preference dataset creative tasks humorous caption generation ranking-based evaluation strategies ai humor generation

发现论文，激发创造

集体话语中的幽默:《纽约客》漫画字幕比赛中的无监督趣味性检测

本研究实验比较了十二种自动方法来选择最有趣的标题，结果表明，负面情感、以人为本和词汇中心性最能匹配最有趣的标题，其次是正面情感。这些结果有助于理解幽默，并在文本和多模（视觉 + 文本）系统中设计更加引人入胜的对话代理人。

Jun, 2015

认真对待幽默：使用无趣的大型语言模型构建幽默数据集

通过编辑文本，我们研究了大型语言模型（LLMs）是否能够生成用于幽默检测的合成数据。我们对现有的人类数据集进行了基准测试，并展示了当前的 LLMs 在判断幽默性和幽默检测的下游任务中，能够令人印象深刻地去除笑话。我们还将我们的方法扩展到了一个混合编码的英文 - 印地语幽默数据集，发现 GPT-4 的合成数据得到了双语注释者的高评价，并为幽默分类器提供了具有挑战性的对抗性例子。

Feb, 2024

通过个性化实现引人入胜的图像字幕

本研究定义了一项全新的任务 —— 人格化字幕，旨在提高人类与机器之间的互动性，并基于 215 种可能的人格特征收集并发布了 201,858 个字幕的大型数据集。该研究运用了转换器及 1.7 亿对话样本对句子表示进行建模，通过 Mahajan 等人（2018 年）的图像表示及针对 35 亿社交媒体图像进行训练的 ResNets 得到图像表示。本文在 Flickr30k 和 COCO 上取得最优表现，并经在线评估验证其在人与机器之间的互动性。

Oct, 2018

OxfordTVG-HIC: 机器能否从图像中制作幽默的标题？

本研究提出了 OxfordTVG-HIC（Humorous Image Captions），这是用于幽默生成和理解的大规模数据集。通过对所训练模型进行解释性分析，我们发现视觉和语言线索对于引起幽默预测（和生成）具有影响力，并定性地观察到这些线索与认知心理学中的害笑违例理论相一致。

Jul, 2023

自发幽默的多模态预测：一个新颖的数据集和初步结果

本文介绍了一种新的 Passau-SFCH 数据集，用于幽默和其情感和方向的自动分析，研究结果表明，对于幽默和其情感的自动分析，面部表情最有潜力，而文本特征最适合模拟幽默方向。

Sep, 2022

AI 有趣吗？HumorDB：一个经过精选的数据集和基准，用于研究图形幽默

通过 HumorDB 数据集，该研究论文介绍了一种用于提升视觉幽默理解能力的图像数据集，着重于触发幽默的微妙视觉线索，并缓解潜在的偏差。该数据集可以通过二元分类（有趣或无趣）、范围回归（将幽默性评分从 1 到 10 进行量化）和成对比较任务（哪个图像更有趣？）进行评估，有效捕捉了幽默感知的主观性。初步实验表明，虽然纯视觉模型面临困难，但视觉语言模型，特别是利用大型语言模型的模型，表现出有希望的结果。HumorDB 还展示了作为功能强大的大型多模态模型的一个有价值的零样本基准的潜力。我们在 CC BY 4.0 许可证下开源了数据集和代码。

Jun, 2024

语言模型能在 YouTube 短视频中大笑吗？

使用 GPT-3.5 过滤与嘲笑相关的语言与视觉元素，通过时间戳和文字解释为每个视频注释，以提高大型语言模型对视频幽默的理解。

Oct, 2023

安卓能否笑对电子羊？ - 源自《纽约客》漫画比赛的幽默「理解」基准

本文试图让 AI 模型 “展现出理解” 的《纽约客字幕比赛》中的多模态幽默，同时研究采用视觉与语言、或只采用语言作为输入的模型，并公开了包括图片的注释、实体、场景特殊之处和笑话解释的数据集和语料库。

Sep, 2022

神经笑话机：幽默图片字幕生成

本文介绍了一种基于计算机视觉的图像标注系统 -- Neural Joking Machine（NJM），该系统可根据主题（图像）和有趣的标题（文本）自动输出有趣的标题，并使用 Funny Score 对模型进行优化，实验结果表明，使用 NJM 的结果比使用基线（MS COCO Pre-trained CNN+LSTM）更为有效。

May, 2018

通过图像描述的方式改进多模态数据集

通过探索不同的混合策略，我们发现合成字幕能够增加网络爬取数据点的效用，并且在 38 个任务中，对于 ImageNet 表现比 DataComp 基准提高 2%，平均值提高 4%。此外，我们发现使用合成字幕进行多模态训练时，标准图像字幕基准的性能并不可靠，还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。

Jul, 2023