幽默生成的逐步思考指导
通过多步推理,我们探讨了一句笑话的生成。通过重构创造幽默的过程并开发工作原型来生成幽默。我们进行了涉及人类参与者的全面实验,将其与人类创造的笑话、零样本 GPT-4 生成的幽默和其他基准进行比较。评估侧重于所生成幽默的质量,以人工标注作为基准。我们的发现表明,多步推理方法始终改善了所生成幽默的质量。我们呈现了结果,并分享了我们实验中使用的数据集,以提供关于如何通过人工智能提升幽默生成的见解。
May, 2024
利用促发实验,探索 ChatGPT 的幽默感,发现其不能生成新的笑话,但能够解释 、分类有效的笑话,对于无效笑话则提供虚构解释。ChatGPT 还没有完全解决计算幽默的问题,但是它可以成为 “有趣” 机器的一大飞跃。
Jun, 2023
我们评估了 Open AI 的生成式自然语言模型 GPT-3 在 Guilford 的替代用途测试中的创造力,结果显示人类目前在创造性输出方面表现优于 GPT-3,但我们相信这只是时间问题。
Jun, 2022
本文探讨利用人类书写的样例以几乎无监督的方式创作自由文本解释的任务,发现高质量的提示有助于提高语言模型的生成效果,同时人类研究表明 GPT-3 生成的解释在某些情况下能够胜过人工生成的解释;作者还结合 GPT-3 与学习自评价的筛选器对生成的解释进行过滤,结果表明这一方法能够实现较高水平的解释过滤。
Dec, 2021
本研究揭示了大型语言模型 (LLMs) 在某些情况下表现出具有人类直觉的行为,包括许多认知错误,并且通过使用 GPT-3.5 等最新技术的模型及进行人类直觉决策的试探研究证明了这一点,并探究了几种方法来测试 GPT-3.5 的倾向于类似直觉的决策及其机器行为等方面,以揭示出这些模型在认知科学方面的新兴特征和调整预期的潜力。
Dec, 2022
通过编辑文本,我们研究了大型语言模型(LLMs)是否能够生成用于幽默检测的合成数据。我们对现有的人类数据集进行了基准测试,并展示了当前的 LLMs 在判断幽默性和幽默检测的下游任务中,能够令人印象深刻地去除笑话。我们还将我们的方法扩展到了一个混合编码的英文 - 印地语幽默数据集,发现 GPT-4 的合成数据得到了双语注释者的高评价,并为幽默分类器提供了具有挑战性的对抗性例子。
Feb, 2024
本文使用 GPT-4 进行了多项实验来生成计算机代码,发现 AI 编码工具需要人类的验证才能确保准确性和可靠性。同时,使用 GPT-4 进行代码改进可以显著提高代码质量,但生成的测试仍需要人类验证。
Apr, 2023
本文借助认知心理学的工具对最近的大型语言模型 GPT-3 进行了研究评估其在任务决策、信息搜索、思考以及因果推理方面的能力,结果显示 GPT-3 表现出的许多行为令人印象深刻,能够像人类一样解决任务,但也发现了其局限性,如对于因果推理任务失败,这些结果丰富了我们对当前大型语言模型的理解,并为进一步利用认知心理学工具研究越来越能干和难以理解的人工智能代理铺平了道路。
Jun, 2022
本文研究了 GPT-3 在通过文本解释来表达音乐决策方面的能力,结果表明 GPT-3 缺乏理解音乐决策的必要智能,解决该问题的主要障碍是缺乏艺术家创作音乐时解释过程的数据资源。
May, 2022
本研究旨在探索 GPT-3.5 作为大型语言模型在处理互联网迷因情感分析方面的能力,包括迷因情感分类、幽默类型确定和隐性仇恨迷因检测。评估结果表明,尽管 GPT 取得了显著进展,但仍然面临内在限制,包括对上下文的理解、隐含含义的解释和数据偏见等。该研究对 AI 在处理复杂的、依赖上下文的任务方面的适用性进行了探讨,为未来的发展提供了有价值的见解。
Nov, 2023