利用大型语言模型构建和执行计算工作流

Dec, 2023

利用大型语言模型构建和执行计算工作流

Leveraging Large Language Models to Build and Execute Computational Workflows

Alejandro Duque, Abdullah Syed, Kastan V. Day, Matthew J. Berry, Daniel S. Katz...

TL;DR利用大型语言模型、代码生成和工作流管理系统的初步发现，本文探讨了如何利用这些新兴技术来实现复杂科学工作流的自动化。

Abstract

The recent development of large language models (LLMs) with multi-billion parameters, coupled with the creation of user-friendly application programming interfaces (APIs), has paved the way for automatically generating and executing code in response to straightforward human queries. Th

large language models code generation scientific workflows phyloflow workflow management system

发现论文，激发创造

大型语言模型助力：使用 ChatGPT 简化科学工作流程开发的复杂性

科学工作流系统越来越受欢迎，可以表达和执行对大数据集的复杂数据分析流水线，因为它们提供了自动化并行化在大型计算集群上的可重复性、可靠性和可扩展性。然而，由于涉及许多黑盒工具和必要的底层基础架构，实现工作流变得困难。同时，用户支持工具很少，可用示例数量远低于传统编程语言。为了应对这些挑战，我们研究了大型语言模型（LLMs），特别是 ChatGPT，在科学工作流处理过程中对用户的支持效率。我们在两个科学领域进行了三项用户研究，评估了 ChatGPT 在理解、适应和扩展工作流方面的效果。我们的结果表明，LLMs 可以有效地解释工作流，但在交换组件或目的工作流扩展方面表现较差。我们对这些具有挑战性的情景中的局限性进行了界定，并提出了未来的研究方向。

Nov, 2023

大型语言模型的科学计算

大型语言模型在科学计算应用中的应用领域和研究进行了概述，重点突出了涉及科学文献和描述物理系统的专用语言的自然语言处理的使用案例。在医学、数学和物理学领域，聊天机器人样式的应用可以与领域专家进行迭代，进行问题解决。同时，我们还对分子生物学中的专用语言进行了审查，这些语言包括分子、蛋白质和 DNA 的使用，语言模型被用于预测特性，甚至以比传统计算方法快得多的速度创建新型物理系统。

Jun, 2024

从总结到行动：利用开放式接口增强大规模语言模型对复杂任务的应用

人类与动物之间的区别在于人类可以使用和创造工具，而使大型语言模型具备学习外部工具使用的能力可以成为实现人工智能的重要一步。本研究引入了一种新的工具调用管道，设计用于控制庞大的真实世界应用程序接口，通过 ` 从摘要到行动 ' 的 Sum2Act 管道，在复杂的真实用户查询中模拟人类解决问题的过程，从而提高了大型语言模型的性能，优于现有的方法。

Feb, 2024

生物信息学中的大型语言模型：应用与展望

大型语言模型在生物信息学领域具有巨大潜力和前景，广泛应用于基因组学、转录组学、蛋白质组学、药物发现和单细胞分析等多个层面的生物信息学问题。

Jan, 2024

大型语言模型用于科学研究的跨学科视角

大型语言模型 (LLMs) 能够在不同学科领域发挥作用和限制，加强科学研究，例如通过总结大量出版物加速文献回顾，通过自动语法纠正提升代码开发，和优化科学写作过程。然而，LLMs 面临挑战，如依赖庞大且有时偏颇的数据集，以及出于使用而引发的潜在伦理困境。我们对 LLMs 在不同领域的影响进行重要讨论，从自然科学中帮助模拟复杂生物序列，到社会科学中解析大规模的定性数据。最后，我们提供一种细致的观点，认为 LLMs 既是科学进步的福音，也是其边界。

Nov, 2023

性能对齐的 LLM 用于生成高效代码

通过引入强化学习的方法，将代码 LMM 的输出与性能对齐，提高生成代码的期望加速比，并在一组基准任务中展示了 0.9 至 1.6 倍的串行代码速度提升和 1.9 至 4.5 倍的 OpenMP 代码速度提升。

Apr, 2024

大型语言模型是否成为数据流水线的新接口？

语言模型是一种广义的术语，它包含了各种类型的模型，旨在理解和生成人类的交流。大型语言模型（LLM）因其具有与人类类似的流畅和连贯性处理文本的能力而引起了人们的广泛关注，这使它们在以管道方式构建的各种数据相关任务中具有价值。LLM 在自然语言理解和生成方面的能力，结合其可伸缩性、多样性和领先性能，使其在诸如解释性人工智能（XAI）、自动化机器学习（AutoML）和知识图谱（KG）等各个人工智能领域具有创新应用的能力。此外，我们还相信这些模型能够从大规模数据中提取有价值的见解，并进行数据驱动的决策，这种做法通常被称为大数据分析（BDA）。在本立场论文中，我们对这些技术之间的协同作用提供一些讨论，该协同作用可以实现更强大和智能的人工智能解决方案，推动在整合人、计算机和知识的各种应用和领域中数据管道的改进。

Jun, 2024

理解大型语言模型在自动化规划方面的能力

该研究旨在探讨大型语言模型在自动计划中的应用，研究包括使用何种预训练数据最有效、微调或提示哪种方法最有效以及大型语言模型能否进行计划综合。

May, 2023

利用大型语言模型建模并行程序

本文介绍了如何将大型语言模型应用于高性能和科学代码的特定任务中，并通过实验展示了如何使用新模型 HPC-Coder 解决一些现有模型无法解决的问题。

Jun, 2023

用于科学综合、推理和解释的大型语言模型

使用大型语言模型进行科学综合、推理和解释，通过从科学文献综合知识，将其应用于预测分子属性等任务，提高了当前机器学习系统的性能，并能解释其预测结果，将加速科学发现的进程。

Oct, 2023