测量语言模型创造力:代码生成案例研究
本文系统地探讨了LLMs增强跨领域类比推理的能力,研究表明LLM生成的跨领域类比常常被认为是有帮助的,并且在问题形式化的过程中往往会引发重要的变化,并且存在潜在的风险,如可能引起不适的内容。
Feb, 2023
我们研究了现代大型语言模型(LLMs)在一个受限制的环境中的创造性问题解决能力。为了达到这个目的,我们创建了一个名为'MacGyver'的自动生成数据集,包含1,600个故意触发功能固定性并需要'跳出框架'思考的现实世界问题。我们将问题集呈现给LLMs和人类,并比较两者的问题解决能力。我们展示了对于两组来说,MacGyver都是具有挑战性的,但方式是独特且互补的。我们还提供了LLMs的详细错误分析,并展示了通过新颖的提示技术(如迭代的逐步反思和发散-收敛思维)来增强它们的问题解决能力的潜力。这项工作揭示了人类和人工智能的创造性问题解决能力,并说明了如何将心理学范式扩展到比较人类和机器的大规模任务中。
Nov, 2023
本研究旨在建立一个有效的框架,评估大型语言模型的创造力水平,通过改编Torrance创造性思维测试方法,研究评估了各种任务中的创造性表现,包括流畅性、灵活性、独创性和详尽度等4个标准,并发现大型语言模型在独创性方面表现不足,但在详尽度方面优秀,还揭示了模型的创造力受提示和角色扮演设置的显著影响,多个模型合作也可以增强独创性,此外,人工评估和大型语言模型对创造力的影响存在一致性,强调了大型语言模型设计对创造力的重要影响。
Jan, 2024
大型语言模型的艺术潜力在创意编码中的艺术家与人工智能协作中被广泛利用,我们的研究揭示艺术家创作过程中这种协作方式中的反思类型,比较了整个程序和多个子任务两种常见的协作方式,并通过实验数据和定性访谈展示了艺术家在两种不同方法中的不同反思激发,并显示了反思类型与用户表现、用户满意度和主观体验的相关性。同时,我们从艺术家的视角提供了人工智能协作的关键观点,并为未来AI辅助创意任务的设计提供了建议。
Feb, 2024
大型语言模型在创造性任务中表现得相当有创造力,但研究关于LLM创造力的过程主要集中在产品上,对创造过程的关注较少。我们提供了一种自动化方法来描述人类和LLM如何在交替使用任务和语言流利性任务中探索语义空间,并与其在行为上的对比。我们使用句子嵌入来识别响应类别和计算语义相似性,进而生成跳转轮廓。我们的结果证实了人类之前的工作,报告了持久性(对少量语义空间进行深度搜索)和灵活性(在多个语义空间中广泛搜索)两种创造力路径,两种路径都导致相似的创造力得分。LLM在坚持性和灵活性路径上存在偏差,且在不同任务中变化。尽管LLM群体与人类个体相匹配,它们与创造力的关系不同,表现更灵活的模型在创造力方面得分更高。我们的数据集和脚本可以在GitHub上获得。
May, 2024
通过模拟从不同背景和视角的参与者中进行互动讨论来提升大型语言模型创造力,采用三阶段的LLM讨论框架,引入角色扮演技术,实现了创造性答案的多样性、多维度的交流,通过多项创造力度量指标超越了现有的单一和多个LLM框架。
May, 2024
最新研究表明,大型语言模型(LLMs)在创造性方面可以超越人类的能力,特别是在发散性思维和创造性写作等特定创造性任务方面,这项研究使用创造力科学的最新进展构建了一个评估LLMs创造力的深入分析框架与一个包含10万人的实验数据集进行对比,既为更具创造力的LLMs的发展开辟了新的路径,也促进了对由人类独特的创新思维过程构成的与那些可以人工生成的元素的更细致的研究。
May, 2024