IdeaBench:大型语言模型研究创意生成基准测试
使用超过58百万科学论文构建的知识图谱,并结合GPT-4接口生成个性化研究想法的SciMuse系统,通过与马克斯·普朗克研究所的100多位研究团队领导的大规模人工评估,我们发现数据高效的机器学习可以高精度预测研究兴趣,从而优化产生的研究想法的兴趣水平。这项工作是朝着一种人工科学启发的方向迈进,可以催生意料之外的合作,并为科学家提供有趣的研究方向。
May, 2024
大型语言模型(LLMs)在科学研究中的广泛应用需要先进的评估标准来全面评估它们对科学知识的理解和应用。为了解决这个问题,我们引入了SciKnowEval基准,这是一个新颖的框架,从五个渐进的科学知识水平对LLMs进行系统评估:广泛学习、认真探究、深入思考、清晰辨别和勤奋实践。这些水平旨在评估LLMs的科学知识的广度和深度,包括知识覆盖、探索能力、反思和推理能力、伦理和安全考量以及实践熟练性。我们以生物学和化学为SciKnowEval的两个示例,并构建了一个包含50,000个多层次科学问题和解决方案的数据集。通过利用这个数据集,我们使用零提示和少量提示策略对20个领先的开源和专有LLMs进行了评估。结果显示,尽管取得了最先进的性能,专有的LLMs在解决科学计算和应用方面仍有相当大的改进空间。我们预计SciKnowEval将建立一个全面的标准来评估科学研究和发现中的LLMs,并促进将科学知识与强大的安全意识融入LLMs的发展。数据集和代码可在此https URL上公开获取。
Jun, 2024
快速提取、调用函数和数据分析是大型语言模型(LLMs)快速生成代码,从提供的数据集中自动化搜索和验证假设的关键。我们通过DiscoveryBench这一全面的基准测试来评估这个问题,该基准测试形式化了数据驱动发现的多步骤过程。该基准测试的设计是为了系统评估当前模型在发现任务中的能力,并为改进这些能力提供有用的资源。
Jul, 2024
大型语言模型(LLMs)在定义和执行复杂的创造性自然语言生成(NLG)任务方面带来了前所未有的灵活性。然而,这种灵活性也带来了新的挑战,因为它在制定任务输入和指令以及评估模型性能方面引入了新的自由度。为了促进创造性NLG任务的探索,我们提出了一个由系统输入操作、参考数据和输出度量组成的三组件研究框架。我们使用该框架来研究引文文本生成——这是一个在学术界的NLP任务中广受欢迎的任务,对任务定义和评估指标缺乏共识,并且尚未在LLM范式中解决。我们的结果凸显了在提示LLMs时系统地调查任务指令和输入配置的重要性,并揭示了用于引文文本生成的不同评估指标之间的非平凡关系。额外的人工生成和人工评估实验为指导未来的引文文本生成研究提供了新的定性见解。我们公开提供我们的代码和数据。
Jul, 2024
本研究解决了大型语言模型(LLMs)在生成新颖、高水平研究创意方面的能力不足的问题。通过对100多名自然语言处理研究者进行实验设计,我们首次对LLM和人类创意进行了头对头的比较,发现LLM生成的创意在新颖性上被评判为优于人类专家的创意。研究还揭示了构建和评估研究代理面临的开放问题,并提出进一步研究的必要性。
Sep, 2024
本研究探讨了大型语言模型(LLMs)在基于研究论文信息生成新的研究想法的能力,填补了人工智能应用于科研创意生成的空白。我们发现,Claude-2产生的未来研究想法在多样性和作者观点的契合度上优于其他模型,如GPT-4和GPT-3.5。此研究突显了LLMs在创意生成过程中的潜力和局限性,为未来利用语言模型生成研究想法提供了重要洞见。
Sep, 2024
本研究旨在解决语言智能体在完全自动化科学发现中的能力不足问题,并提出了ScienceAgentBench作为评估这一能力的新基准。研究发现,当前的语言智能体在科学工作流程中仅能独立解决32.4%的任务,这凸显了其在进行数据驱动发现时的局限性和改进需求。
Oct, 2024
本研究针对科学文献激增导致研究人员难以识别有意义的研究方向的问题,提出了一种新的大语言模型代理——思维链代理(CoI),通过链式结构组织相关文献,以有效反映研究领域的渐进发展。实验结果表明,CoI代理在创意生成上优于其他方法,并能与人类研究人员的创意质量相媲美,具有低成本的优点。
Oct, 2024
本研究解决了大型语言模型(LLMs)在生成研究创意时存在的简单化和重复性问题,提出了一种增强的规划和搜索方法。通过迭代过程,该方法旨在有目的地检索外部知识,从而丰富创意生成的广度和深度。验证结果表明,该框架显著提升了生成创意的质量,特别是在创新性和多样性方面,独特新颖的创意数量是无此方法时的3.4倍。
Oct, 2024
本文针对大型语言模型在科学假设生成过程中常见的“幻觉”问题,提出了一种新颖的方法KG-CoI(知识支持的思想链)。这一系统通过整合知识图谱的外部结构化知识,改进了语言模型的推理过程,从而提高假设生成的准确性,并显著降低错误输出的可能性,其成果对实际科学研究具有积极的推动作用。
Nov, 2024