Jun, 2024

科学工作流智能辅助任务的新数据集和基准

TL;DR科学创新依赖于详细的工作流程,而科学出版物的无结构性使得科研人员和人工智能系统难以有效地浏览和探索科学创新领域。为了解决这个问题,我们介绍了 MASSW,一个关于科学工作流多方面摘要的全面文本数据集。使用大型语言模型(LLMs),我们自动从这些出版物中提取了五个核心方面,它们对应于研究工作流程中的五个关键步骤。通过多种机器学习任务,我们展示了 MASSW 的实用性,这些任务可以利用这个新数据集进行基准测试,从而在科学工作流程中进行各种类型的预测和建议。