大型语言模型的创造力调查:能否产生不同的语义联想?
本研究探讨了在大型语言模型(LLMs)中通过联想思维来增强创造力的方式,通过联接表面上不相关的概念以产生创意的认知过程。我们通过三个领域 —— 产品设计、讲故事和营销,引入了评估 vGPT-4 生成原创和有用内容能力的创造力任务,并发现利用联想思维技巧可以显著提高 vGPT-4 响应的独创性。
May, 2024
最新研究表明,大型语言模型(LLMs)在创造性方面可以超越人类的能力,特别是在发散性思维和创造性写作等特定创造性任务方面,这项研究使用创造力科学的最新进展构建了一个评估 LLMs 创造力的深入分析框架与一个包含 10 万人的实验数据集进行对比,既为更具创造力的 LLMs 的发展开辟了新的路径,也促进了对由人类独特的创新思维过程构成的与那些可以人工生成的元素的更细致的研究。
May, 2024
我们评估了 Open AI 的生成式自然语言模型 GPT-3 在 Guilford 的替代用途测试中的创造力,结果显示人类目前在创造性输出方面表现优于 GPT-3,但我们相信这只是时间问题。
Jun, 2022
使用大型语言模型(LLM)作为创意支持工具(CST)可能会使用户感到更有创造力,增加每个用户建议的观点范围,但也可能使不同用户的建议观点趋同。通过进行一项 36 位参与者的用户比较研究,我们发现与同一类别的 CST 相比,使用 ChatGPT 的不同用户倾向于提出缺乏语义差异的想法。此外,ChatGPT 用户生成了更多更详细的想法,但对所生成的想法的责任感较低。我们讨论了这些发现对 LLM 基于 CST 的用户、设计师和开发人员可能产生的潜在影响。
Feb, 2024
通过评估 GPT-4,一个尖端的大型语言模型,在解释塞尔维亚诗歌中提取的新颖文学隐喻时所提供的自然语言解释能力,它未展现出之前接触过这些隐喻的迹象,但提供了详细而深刻的解释,被盲审的人员(不知道涉及 AI 模型的事实)将 GPT-4 生成的隐喻解释评为优于来自一组大学生的解释,这些结果表明 GPT-4 等大语言模型已经获得了解释复杂新颖隐喻的新兴能力。
Aug, 2023
本研究探讨了大型语言模型(比如 GPT-3)在模拟人类的模拟推理能力方面的表现,特别是它在没有直接训练的情况下是否能够进行零样本推理。研究发现,GPT-3 在抽象模式归纳方面具有出色的能力,并能够在大多数场景中匹配或超过人类的能力。因此,大型语言模型能够在许多类比问题中找到零样本解决方案。
Dec, 2022
大型语言模型在创造性任务中表现得相当有创造力,但研究关于 LLM 创造力的过程主要集中在产品上,对创造过程的关注较少。我们提供了一种自动化方法来描述人类和 LLM 如何在交替使用任务和语言流利性任务中探索语义空间,并与其在行为上的对比。我们使用句子嵌入来识别响应类别和计算语义相似性,进而生成跳转轮廓。我们的结果证实了人类之前的工作,报告了持久性(对少量语义空间进行深度搜索)和灵活性(在多个语义空间中广泛搜索)两种创造力路径,两种路径都导致相似的创造力得分。LLM 在坚持性和灵活性路径上存在偏差,且在不同任务中变化。尽管 LLM 群体与人类个体相匹配,它们与创造力的关系不同,表现更灵活的模型在创造力方面得分更高。我们的数据集和脚本可以在 GitHub 上获得。
May, 2024
介绍了大型语言模型的发展并探讨了模型生成内容在训练中产生的影响,它导致原始内容分布的尾部消失并称之为模型失忆现象 (model dementia),此现象在各种生成模型中普遍存在,为了利用从网络中爬取的大规模数据所获得的收益,我们必须认真对待它。
May, 2023
通过对 GPT-4 在规划子领域中的表现进行全面检查,我们鉴定了大型语言模型在解决规划问题方面的优势和限制,并提出了改进领域特定大型语言模型的思维链能力的方法。这些结果为大语言模型在规划领域的潜在应用提供了宝贵的见解,并为未来的研究克服其限制和拓展其能力铺平了道路。
Sep, 2023
本研究旨在建立一个有效的框架,评估大型语言模型的创造力水平,通过改编 Torrance 创造性思维测试方法,研究评估了各种任务中的创造性表现,包括流畅性、灵活性、独创性和详尽度等 4 个标准,并发现大型语言模型在独创性方面表现不足,但在详尽度方面优秀,还揭示了模型的创造力受提示和角色扮演设置的显著影响,多个模型合作也可以增强独创性,此外,人工评估和大型语言模型对创造力的影响存在一致性,强调了大型语言模型设计对创造力的重要影响。
Jan, 2024