大型语言模型能否生成新颖的研究创意?一项涵盖100多名自然语言处理研究者的大规模人类研究
本研究旨在建立一个有效的框架,评估大型语言模型的创造力水平,通过改编Torrance创造性思维测试方法,研究评估了各种任务中的创造性表现,包括流畅性、灵活性、独创性和详尽度等4个标准,并发现大型语言模型在独创性方面表现不足,但在详尽度方面优秀,还揭示了模型的创造力受提示和角色扮演设置的显著影响,多个模型合作也可以增强独创性,此外,人工评估和大型语言模型对创造力的影响存在一致性,强调了大型语言模型设计对创造力的重要影响。
Jan, 2024
提出了一种基于大型语言模型的研究思路写作代理——ResearchAgent,它在科学文献的基础上自动生成问题、方法和实验设计,并通过连接学术图谱中的信息和从基于实体为中心的知识库中提取的实体进行逐步改进。此外,通过与多个ReviewingAgents进行反复讨论和反馈来借鉴人类改善思路的方式,还利用与人类偏好一致的大型语言模型为评估提供标准。在多个学科的科技出版物上实验证明了ResearchAgent的有效性,通过人工和模型评估结果生成了新颖、明确和有效的研究思路。
Apr, 2024
通过模拟从不同背景和视角的参与者中进行互动讨论来提升大型语言模型创造力,采用三阶段的LLM讨论框架,引入角色扮演技术,实现了创造性答案的多样性、多维度的交流,通过多项创造力度量指标超越了现有的单一和多个LLM框架。
May, 2024
最新研究表明,大型语言模型(LLMs)在创造性方面可以超越人类的能力,特别是在发散性思维和创造性写作等特定创造性任务方面,这项研究使用创造力科学的最新进展构建了一个评估LLMs创造力的深入分析框架与一个包含10万人的实验数据集进行对比,既为更具创造力的LLMs的发展开辟了新的路径,也促进了对由人类独特的创新思维过程构成的与那些可以人工生成的元素的更细致的研究。
May, 2024
本研究探讨了大型语言模型(LLMs)在基于研究论文信息生成新的研究想法的能力,填补了人工智能应用于科研创意生成的空白。我们发现,Claude-2产生的未来研究想法在多样性和作者观点的契合度上优于其他模型,如GPT-4和GPT-3.5。此研究突显了LLMs在创意生成过程中的潜力和局限性,为未来利用语言模型生成研究想法提供了重要洞见。
Sep, 2024
本研究针对科学创意生成过程中的现有研究论文特征重组的挑战,提出了混合主动的工具Scideator。该工具通过提取用户提供的论文中的关键特征,支持用户互动式地组合这些特征,进而合成新颖的创意,且相较于传统方法,能够显著提高科学研究者识别有趣创意的能力。
Sep, 2024
本研究针对科学文献激增导致研究人员难以识别有意义的研究方向的问题,提出了一种新的大语言模型代理——思维链代理(CoI),通过链式结构组织相关文献,以有效反映研究领域的渐进发展。实验结果表明,CoI代理在创意生成上优于其他方法,并能与人类研究人员的创意质量相媲美,具有低成本的优点。
Oct, 2024
本研究解决了大型语言模型(LLMs)在生成研究创意时存在的简单化和重复性问题,提出了一种增强的规划和搜索方法。通过迭代过程,该方法旨在有目的地检索外部知识,从而丰富创意生成的广度和深度。验证结果表明,该框架显著提升了生成创意的质量,特别是在创新性和多样性方面,独特新颖的创意数量是无此方法时的3.4倍。
Oct, 2024
本研究解决了缺乏综合评估框架的问题,评估大型语言模型在生成研究创意方面的能力。提出的IdeaBench基准系统包含全面的数据集和评估框架,模拟人类研究员的思维过程,从而动态生成新研究创意。该系统将为科学发现过程的自动化提供有力支持。
Oct, 2024