大型语言模型能否生成新颖的研究创意?一项涵盖100多名自然语言处理研究者的大规模人类研究
为了解决开放式自然语言生成任务中评估标准不一致的挑战,我们提出了一种协同评估流程 CoEval,涉及特定任务标准的清单设计和文本的详细评估,其中大型语言模型生成初步的构思,而人类进行审查,结果显示,通过利用大型语言模型,CoEval能够高效地评估长文本,节省时间并减少人类评估的异常值,人类审查仍然起着重要作用,以最终确保可靠性。
Oct, 2023
本研究旨在建立一个有效的框架,评估大型语言模型的创造力水平,通过改编Torrance创造性思维测试方法,研究评估了各种任务中的创造性表现,包括流畅性、灵活性、独创性和详尽度等4个标准,并发现大型语言模型在独创性方面表现不足,但在详尽度方面优秀,还揭示了模型的创造力受提示和角色扮演设置的显著影响,多个模型合作也可以增强独创性,此外,人工评估和大型语言模型对创造力的影响存在一致性,强调了大型语言模型设计对创造力的重要影响。
Jan, 2024
提出了一种基于大型语言模型的研究思路写作代理——ResearchAgent,它在科学文献的基础上自动生成问题、方法和实验设计,并通过连接学术图谱中的信息和从基于实体为中心的知识库中提取的实体进行逐步改进。此外,通过与多个ReviewingAgents进行反复讨论和反馈来借鉴人类改善思路的方式,还利用与人类偏好一致的大型语言模型为评估提供标准。在多个学科的科技出版物上实验证明了ResearchAgent的有效性,通过人工和模型评估结果生成了新颖、明确和有效的研究思路。
Apr, 2024
通过模拟从不同背景和视角的参与者中进行互动讨论来提升大型语言模型创造力,采用三阶段的LLM讨论框架,引入角色扮演技术,实现了创造性答案的多样性、多维度的交流,通过多项创造力度量指标超越了现有的单一和多个LLM框架。
May, 2024
最新研究表明,大型语言模型(LLMs)在创造性方面可以超越人类的能力,特别是在发散性思维和创造性写作等特定创造性任务方面,这项研究使用创造力科学的最新进展构建了一个评估LLMs创造力的深入分析框架与一个包含10万人的实验数据集进行对比,既为更具创造力的LLMs的发展开辟了新的路径,也促进了对由人类独特的创新思维过程构成的与那些可以人工生成的元素的更细致的研究。
May, 2024
大型语言模型(LLMs)在定义和执行复杂的创造性自然语言生成(NLG)任务方面带来了前所未有的灵活性。然而,这种灵活性也带来了新的挑战,因为它在制定任务输入和指令以及评估模型性能方面引入了新的自由度。为了促进创造性NLG任务的探索,我们提出了一个由系统输入操作、参考数据和输出度量组成的三组件研究框架。我们使用该框架来研究引文文本生成——这是一个在学术界的NLP任务中广受欢迎的任务,对任务定义和评估指标缺乏共识,并且尚未在LLM范式中解决。我们的结果凸显了在提示LLMs时系统地调查任务指令和输入配置的重要性,并揭示了用于引文文本生成的不同评估指标之间的非平凡关系。额外的人工生成和人工评估实验为指导未来的引文文本生成研究提供了新的定性见解。我们公开提供我们的代码和数据。
Jul, 2024
本研究探讨了大型语言模型(LLMs)在基于研究论文信息生成新的研究想法的能力,填补了人工智能应用于科研创意生成的空白。我们发现,Claude-2产生的未来研究想法在多样性和作者观点的契合度上优于其他模型,如GPT-4和GPT-3.5。此研究突显了LLMs在创意生成过程中的潜力和局限性,为未来利用语言模型生成研究想法提供了重要洞见。
Sep, 2024
本研究针对科学创意生成过程中的现有研究论文特征重组的挑战,提出了混合主动的工具Scideator。该工具通过提取用户提供的论文中的关键特征,支持用户互动式地组合这些特征,进而合成新颖的创意,且相较于传统方法,能够显著提高科学研究者识别有趣创意的能力。
Sep, 2024