利用大型语言模型构建和执行计算工作流
科学工作流系统越来越受欢迎,可以表达和执行对大数据集的复杂数据分析流水线,因为它们提供了自动化并行化在大型计算集群上的可重复性、可靠性和可扩展性。然而,由于涉及许多黑盒工具和必要的底层基础架构,实现工作流变得困难。同时,用户支持工具很少,可用示例数量远低于传统编程语言。为了应对这些挑战,我们研究了大型语言模型(LLMs),特别是 ChatGPT,在科学工作流处理过程中对用户的支持效率。我们在两个科学领域进行了三项用户研究,评估了 ChatGPT 在理解、适应和扩展工作流方面的效果。我们的结果表明,LLMs 可以有效地解释工作流,但在交换组件或目的工作流扩展方面表现较差。我们对这些具有挑战性的情景中的局限性进行了界定,并提出了未来的研究方向。
Nov, 2023
大型语言模型在科学计算应用中的应用领域和研究进行了概述,重点突出了涉及科学文献和描述物理系统的专用语言的自然语言处理的使用案例。在医学、数学和物理学领域,聊天机器人样式的应用可以与领域专家进行迭代,进行问题解决。同时,我们还对分子生物学中的专用语言进行了审查,这些语言包括分子、蛋白质和 DNA 的使用,语言模型被用于预测特性,甚至以比传统计算方法快得多的速度创建新型物理系统。
Jun, 2024
人类与动物之间的区别在于人类可以使用和创造工具,而使大型语言模型具备学习外部工具使用的能力可以成为实现人工智能的重要一步。本研究引入了一种新的工具调用管道,设计用于控制庞大的真实世界应用程序接口,通过 ` 从摘要到行动 ' 的 Sum2Act 管道,在复杂的真实用户查询中模拟人类解决问题的过程,从而提高了大型语言模型的性能,优于现有的方法。
Feb, 2024
大型语言模型 (LLMs) 能够在不同学科领域发挥作用和限制,加强科学研究,例如通过总结大量出版物加速文献回顾,通过自动语法纠正提升代码开发,和优化科学写作过程。然而,LLMs 面临挑战,如依赖庞大且有时偏颇的数据集,以及出于使用而引发的潜在伦理困境。我们对 LLMs 在不同领域的影响进行重要讨论,从自然科学中帮助模拟复杂生物序列,到社会科学中解析大规模的定性数据。最后,我们提供一种细致的观点,认为 LLMs 既是科学进步的福音,也是其边界。
Nov, 2023
通过引入强化学习的方法,将代码 LMM 的输出与性能对齐,提高生成代码的期望加速比,并在一组基准任务中展示了 0.9 至 1.6 倍的串行代码速度提升和 1.9 至 4.5 倍的 OpenMP 代码速度提升。
Apr, 2024
语言模型是一种广义的术语,它包含了各种类型的模型,旨在理解和生成人类的交流。大型语言模型(LLM)因其具有与人类类似的流畅和连贯性处理文本的能力而引起了人们的广泛关注,这使它们在以管道方式构建的各种数据相关任务中具有价值。LLM 在自然语言理解和生成方面的能力,结合其可伸缩性、多样性和领先性能,使其在诸如解释性人工智能(XAI)、自动化机器学习(AutoML)和知识图谱(KG)等各个人工智能领域具有创新应用的能力。此外,我们还相信这些模型能够从大规模数据中提取有价值的见解,并进行数据驱动的决策,这种做法通常被称为大数据分析(BDA)。在本立场论文中,我们对这些技术之间的协同作用提供一些讨论,该协同作用可以实现更强大和智能的人工智能解决方案,推动在整合人、计算机和知识的各种应用和领域中数据管道的改进。
Jun, 2024
使用大型语言模型进行科学综合、推理和解释,通过从科学文献综合知识,将其应用于预测分子属性等任务,提高了当前机器学习系统的性能,并能解释其预测结果,将加速科学发现的进程。
Oct, 2023