语言模型能否制造乐趣？以中国相声为例的案例研究

Jul, 2022

语言模型能否制造乐趣？以中国相声为例的案例研究

Can Language Models Make Fun? A Case Study in Chinese Comical Crosstalk

Benyou Wang, Xiangbo Wu, Xiaokang Liu, Jianquan Li, Prayag Tiwari...

TL;DR本文旨在测试自然语言生成（NLG）在幽默方面的能力，我们使用各种方法进行生成，包括从头开始训练 Seq2seq、微调中型 PLMs 和大型 PLMs（有和无微调）。我们使用一些由数字化的中国相声剧本组成的新数据集对这些方法进行了基准测试，并进行了人员评估，表明大规模预训练大大提高了相声生成的质量，但我们得出结论：幽默生成目前还处于起步阶段。

Abstract

Language is the principal tool for human communication, in which humor is one of the most attractive parts. Producing natural language like humans using computers, a.k.a, natural language generation (NLG), has be

natural language generation chinese comical crosstalk plms humor dialogue systems

发现论文，激发创造

探索中国幽默生成：关于双关成语的研究

该研究探讨了将最先进的语言模型应用于理解和生成中国幽默的能力，特别关注训练这些模型以创建寓言性语言。针对训练方法，研究采用了两种主要方法：对中型语言模型进行微调和对大型语言模型进行提示。经人工标注结果显示，这些模型能够生成幽默的寓言性语言，提示法证明是一种实用且有效的方法。但在生成能与人类创造力匹配的寓言性语言方面仍有改进的空间。

Mar, 2024

认真对待幽默：使用无趣的大型语言模型构建幽默数据集

通过编辑文本，我们研究了大型语言模型（LLMs）是否能够生成用于幽默检测的合成数据。我们对现有的人类数据集进行了基准测试，并展示了当前的 LLMs 在判断幽默性和幽默检测的下游任务中，能够令人印象深刻地去除笑话。我们还将我们的方法扩展到了一个混合编码的英文 - 印地语幽默数据集，发现 GPT-4 的合成数据得到了双语注释者的高评价，并为幽默分类器提供了具有挑战性的对抗性例子。

Feb, 2024

ChatGPT 很有趣，但并不是滑稽！幽默仍然是具有挑战性的大型语言模型

利用促发实验，探索 ChatGPT 的幽默感，发现其不能生成新的笑话，但能够解释、分类有效的笑话，对于无效笑话则提供虚构解释。ChatGPT 还没有完全解决计算幽默的问题，但是它可以成为 “有趣” 机器的一大飞跃。

Jun, 2023

机器人走进酒吧：语言模型是否可以作为创意支持工具用于喜剧？对 LLM 的幽默吻合度与喜剧演员的评估

我们采访了二十位职业喜剧演员，他们在爱丁堡艺术节上进行的「AI x 喜剧」三小时工作坊中使用人工智能作为艺术创作的一部分，并进行了在线调查。结果显示使用大型语言模型进行喜剧创作并未成功，与此同时，参与者也提出了关于偏见和审查等伦理问题。本研究拓展了学术界对伤害性言论和「冒犯性」语言之间微妙差异的理解，并讨论了基于社区的价值观对齐和数据所有权的重要性，以构建更适合艺术家需求的人工智能工具。

May, 2024

大型语言模型在自然语言生成任务中的系统评估

研究论文从自然语言生成任务的角度全面评估了 ChatGPT、ChatGLM、基于 T5 的模型、基于 LLaMA 的模型和基于 Pythia 的模型等众所周知且表现良好的大型语言模型的性能，并提出了一种常见的评估设置，其中包括输入模板和后处理策略，通过与详细分析相结合的自动结果来报告研究结果。

May, 2024

大型语言模型是否理解对话言外之意 —— 以中国情景喜剧为例研究

大规模语言模型的非字面含义对于其成为类似人类的社交交流者至关重要。本文首次介绍了源自中国情景喜剧《武林外传》对话的 Chinese multi-turn-dialogue-based 数据集 SwordsmanImp。我们测试了八种封闭源和开源 LLM 模型在两个任务中的表现：多项选择问题任务和蕴涵说明任务。我们的结果表明 GPT-4 在多项选择问题上达到了人类水平的准确性（94%）。本研究还发现，除了 GPT-4 之外，大多数 LLM 无法对对话中的含义产生令人满意的解释。

Apr, 2024

幽默生成的逐步思考指导

该论文探讨了使用 GPT-3 模型进行幽默生成，包括建模人类喜剧写作理论和利用分步思维指导。此外，还探讨了认知距离在创造幽默方面的作用。

Jun, 2023

基于 LLM 的数据增强方法提升跨语言表现

本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力，通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集，确定了该方法的有效性，并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明，使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀，ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好，但在某些情况下，它们的效益会下降。

May, 2023

语言模型能在 YouTube 短视频中大笑吗？

使用 GPT-3.5 过滤与嘲笑相关的语言与视觉元素，通过时间戳和文字解释为每个视频注释，以提高大型语言模型对视频幽默的理解。

Oct, 2023

DuanzAI：带有幽默理解提示的俚语增强语言模型

通过 DuanzAI 方法实现了对汉语俚语的深度理解，以构建与人类表达更加贴合的回应，并发布了先进的聊天机器人 ChatDAI 的代码。

May, 2024