解读并列: AI 模型能理解幽默的矛盾吗

May, 2024

解读并列: AI 模型能理解幽默的矛盾吗

Cracking the Code of Juxtaposition: Can AI Models Understand the Humorous Contradictions

Zhe Hu, Tuo Liang, Jing Li, Yiren Lu, Yunlai Zhou...

TL;DR通过对具有矛盾叙事的漫画展开研究，本文引入了 YesBut 评估基准，旨在评估人工智能在识别和解释具有幽默矛盾的漫画方面的能力。通过广泛的实验和分析，我们发现即使是最先进的模型在此任务上仍然落后于人类表现，为人工智能在理解人类创造性表达方面的当前限制和潜在改进提供了见解。

Abstract

Recent advancements in large multimodal language models have demonstrated remarkable proficiency across a wide range of tasks. Yet, these models still struggle with understanding the nuances of human humor throug

multimodal language models human humor nonlinear narratives comics ai capabilities

发现论文，激发创造

安卓能否笑对电子羊？ - 源自《纽约客》漫画比赛的幽默「理解」基准

本文试图让 AI 模型 “展现出理解” 的《纽约客字幕比赛》中的多模态幽默，同时研究采用视觉与语言、或只采用语言作为输入的模型，并公开了包括图片的注释、实体、场景特殊之处和笑话解释的数据集和语料库。

Sep, 2022

认真对待幽默：使用无趣的大型语言模型构建幽默数据集

通过编辑文本，我们研究了大型语言模型（LLMs）是否能够生成用于幽默检测的合成数据。我们对现有的人类数据集进行了基准测试，并展示了当前的 LLMs 在判断幽默性和幽默检测的下游任务中，能够令人印象深刻地去除笑话。我们还将我们的方法扩展到了一个混合编码的英文 - 印地语幽默数据集，发现 GPT-4 的合成数据得到了双语注释者的高评价，并为幽默分类器提供了具有挑战性的对抗性例子。

Feb, 2024

逆向工程讽刺，或 “计算幽默论文” 尽管取得重大进展仍被接受

本文深入探讨了讽刺新闻标题的语法和语义结构，找到了制造幽默的关键词和概念，为构建制造幽默的系统提供了新的见解。

Jan, 2019

机器人走进酒吧：语言模型是否可以作为创意支持工具用于喜剧？对 LLM 的幽默吻合度与喜剧演员的评估

我们采访了二十位职业喜剧演员，他们在爱丁堡艺术节上进行的「AI x 喜剧」三小时工作坊中使用人工智能作为艺术创作的一部分，并进行了在线调查。结果显示使用大型语言模型进行喜剧创作并未成功，与此同时，参与者也提出了关于偏见和审查等伦理问题。本研究拓展了学术界对伤害性言论和「冒犯性」语言之间微妙差异的理解，并讨论了基于社区的价值观对齐和数据所有权的重要性，以构建更适合艺术家需求的人工智能工具。

May, 2024

笑脸头：Transformer 能否识别句子中的幽默元素？

通过对自动检测幽默的研究，我们训练了基于转换器的模型，并分析了幽默识别模型，进一步提高了模型性能和训练方法。

May, 2021

我们是幽默的存在：理解和预测视觉幽默

本研究探讨了抽象场景中触发笑点的内容和不同类型的视觉幽默，设计了计算模型，完成了两种任务：预测场景的趣味性和改变场景的趣味性，通过公开数据集和人类研究展示了模型在定量和定性上的表现良好。

Dec, 2015

机器学习对矛盾检测模型的语言学研究：实证分析和未来展望

分析了两个自然语言推理数据集的语言特征，发现机器学习模型难以理解介词和动词语义重要性，不能理解反义词和同音词，不能理解不完整的句子和罕见单词短语，因此需要在训练过程中尽可能利用更多外部知识。

Oct, 2022

探索中国幽默生成：关于双关成语的研究

该研究探讨了将最先进的语言模型应用于理解和生成中国幽默的能力，特别关注训练这些模型以创建寓言性语言。针对训练方法，研究采用了两种主要方法：对中型语言模型进行微调和对大型语言模型进行提示。经人工标注结果显示，这些模型能够生成幽默的寓言性语言，提示法证明是一种实用且有效的方法。但在生成能与人类创造力匹配的寓言性语言方面仍有改进的空间。

Mar, 2024

AI 有趣吗？HumorDB：一个经过精选的数据集和基准，用于研究图形幽默

通过 HumorDB 数据集，该研究论文介绍了一种用于提升视觉幽默理解能力的图像数据集，着重于触发幽默的微妙视觉线索，并缓解潜在的偏差。该数据集可以通过二元分类（有趣或无趣）、范围回归（将幽默性评分从 1 到 10 进行量化）和成对比较任务（哪个图像更有趣？）进行评估，有效捕捉了幽默感知的主观性。初步实验表明，虽然纯视觉模型面临困难，但视觉语言模型，特别是利用大型语言模型的模型，表现出有希望的结果。HumorDB 还展示了作为功能强大的大型多模态模型的一个有价值的零样本基准的潜力。我们在 CC BY 4.0 许可证下开源了数据集和代码。

Jun, 2024

不确定性和惊讶力量结合：利用基于不一致特征进行幽默识别

通过研究幽默机制，将笑话分成两个部分：设定和妙语。由于底层模型的不断升级，我们能够将设置和妙语一起馈入 GPT-2 语言模型，并计算笑话的不确定性和惊喜度。实验结果表明，这两个特征具有更好的识别非笑话和笑话的能力。

Dec, 2020