Scideator:基于研究论文特征重组的人-大型语言模型科学创意生成
本文研究人工智能模型(特别是大型语言模型)在知识探索和创意增强过程中的潜力。我们展示了一个名为“潜在实验室”的交互工具,用于发现麻省理工媒体实验室研究项目之间的联系,强调“探索”而非搜索。通过解决组织、搜索和综合内容的挑战,这项工作为协作式人工智能系统提供了深入见解。在一项用户研究中,根据该工具引入用户到一个陌生的知识库的能力来评估其成功,最终为人工智能知识探索系统的不断进步奠定了基础。
Nov, 2023
使用大型语言模型(LLM)作为创意支持工具(CST)可能会使用户感到更有创造力,增加每个用户建议的观点范围,但也可能使不同用户的建议观点趋同。通过进行一项36位参与者的用户比较研究,我们发现与同一类别的CST相比,使用ChatGPT的不同用户倾向于提出缺乏语义差异的想法。此外,ChatGPT用户生成了更多更详细的想法,但对所生成的想法的责任感较低。我们讨论了这些发现对LLM基于CST的用户、设计师和开发人员可能产生的潜在影响。
Feb, 2024
提出了一种基于大型语言模型的研究思路写作代理——ResearchAgent,它在科学文献的基础上自动生成问题、方法和实验设计,并通过连接学术图谱中的信息和从基于实体为中心的知识库中提取的实体进行逐步改进。此外,通过与多个ReviewingAgents进行反复讨论和反馈来借鉴人类改善思路的方式,还利用与人类偏好一致的大型语言模型为评估提供标准。在多个学科的科技出版物上实验证明了ResearchAgent的有效性,通过人工和模型评估结果生成了新颖、明确和有效的研究思路。
Apr, 2024
使用超过58百万科学论文构建的知识图谱,并结合GPT-4接口生成个性化研究想法的SciMuse系统,通过与马克斯·普朗克研究所的100多位研究团队领导的大规模人工评估,我们发现数据高效的机器学习可以高精度预测研究兴趣,从而优化产生的研究想法的兴趣水平。这项工作是朝着一种人工科学启发的方向迈进,可以催生意料之外的合作,并为科学家提供有趣的研究方向。
May, 2024
大型语言模型(LLMs)在定义和执行复杂的创造性自然语言生成(NLG)任务方面带来了前所未有的灵活性。然而,这种灵活性也带来了新的挑战,因为它在制定任务输入和指令以及评估模型性能方面引入了新的自由度。为了促进创造性NLG任务的探索,我们提出了一个由系统输入操作、参考数据和输出度量组成的三组件研究框架。我们使用该框架来研究引文文本生成——这是一个在学术界的NLP任务中广受欢迎的任务,对任务定义和评估指标缺乏共识,并且尚未在LLM范式中解决。我们的结果凸显了在提示LLMs时系统地调查任务指令和输入配置的重要性,并揭示了用于引文文本生成的不同评估指标之间的非平凡关系。额外的人工生成和人工评估实验为指导未来的引文文本生成研究提供了新的定性见解。我们公开提供我们的代码和数据。
Jul, 2024
对LLMs的创造力进行量化和评估的研究,通过引入Denial Prompting和NeoGauge度量,发现即使是最具创造力的模型GPT-4仍远远落后于展现人类创造力的水平。
Jul, 2024
本研究解决了大型语言模型(LLMs)在生成新颖、高水平研究创意方面的能力不足的问题。通过对100多名自然语言处理研究者进行实验设计,我们首次对LLM和人类创意进行了头对头的比较,发现LLM生成的创意在新颖性上被评判为优于人类专家的创意。研究还揭示了构建和评估研究代理面临的开放问题,并提出进一步研究的必要性。
Sep, 2024
本研究探讨了大型语言模型(LLMs)在基于研究论文信息生成新的研究想法的能力,填补了人工智能应用于科研创意生成的空白。我们发现,Claude-2产生的未来研究想法在多样性和作者观点的契合度上优于其他模型,如GPT-4和GPT-3.5。此研究突显了LLMs在创意生成过程中的潜力和局限性,为未来利用语言模型生成研究想法提供了重要洞见。
Sep, 2024