S3LLM: 使用源代码、元数据和文档的大规模科学软件理解

Mar, 2024

S3LLM: 使用源代码、元数据和文档的大规模科学软件理解

S3LLM: Large-Scale Scientific Software Understanding with LLMs using Source, Metadata, and Document

Kareem Shaik, Dali Wang, Weijian Zheng, Qinglei Cao, Heng Fan...

TL;DR利用基于 LLM 的框架进行大规模科学软件的代码分析，通过自然语言查询实现快速理解以及消除对广泛编码经验的需求。

Abstract

The understanding of large-scale scientific software poses significant challenges due to its diverse codebase, extensive code length, and target computing architectures. The emergence of generative ai, specifical

large-scale scientific software generative ai llm-based framework code analysis natural language queries

发现论文，激发创造

探索大型语言模型用于代码解释

使用各种大型语言模型自动生成代码片段的自然语言摘要，研究结果表明，代码语言模型优于其通用模型，而零 - shot 方法在训练集和测试集之间分布不同的数据集上取得了更好的结果。

Oct, 2023

关于代码生成的大型语言模型调查

基于大规模语言模型的代码生成领域的综述，介绍了对 LLMs 在代码生成领域的最新进展、数据处理、性能评估、实际应用，对学术与实践之间的差距进行了分析，提出了关键挑战和机遇，并提供了一个资源网站以记录和传播该领域的最新进展。

Jun, 2024

性能对齐的 LLM 用于生成高效代码

通过引入强化学习的方法，将代码 LMM 的输出与性能对齐，提高生成代码的期望加速比，并在一组基准任务中展示了 0.9 至 1.6 倍的串行代码速度提升和 1.9 至 4.5 倍的 OpenMP 代码速度提升。

Apr, 2024

面向软件工程的大型语言模型：一项系统性文献综述

通过系统文献综述，我们深入研究了大型语言模型（LLMs）与软件工程（SE）的交叉领域，并特别关注 LLMs 在 SE 中的应用、影响和潜在局限。通过收集和分析 2017 年至 2023 年的 229 篇研究论文，我们回答了四个关键研究问题（RQs），比较分析了不同用于 SE 任务的 LLMs 的特点和用途，并详细描述了在此领域中数据收集、预处理和应用的方法，揭示了稳健、经过良好策划的数据集对于成功实施 LLM 的关键作用。同时，我们还调查了优化和评估 LLMs 在 SE 中性能的策略，以及与提示优化相关的常见技术。通过解决上述研究问题，我们勾勒出当前最先进的研究状况，找出现有研究的不足之处，并标注未来研究的有前景的领域。

Aug, 2023

用于代码生成和数据分析的科学语言模型

该研究报告关注大型语言模型在科学研究中的应用，调查了使用 LLM 工具的若干实际案例，特别是与软件工程相关的用例，结果显示了大型语言模型工具的潜力和问题。

Nov, 2023

科学大型语言模型：生物与化学领域综述

大型语言模型 (LLMs) 在增强自然语言理解方面具有变革性的力量，代表着朝着人工通用智能迈出的重要一步。科学 LLMs 是一个新兴的领域，专门针对促进科学发现进行工程化设计。本文详细调查了科学 LLMs，并围绕生物化学领域进行了深入研究，包括文本知识、小型分子、大分子蛋白质、基因组序列以及它们的组合，从模型架构、能力、数据集和评估等方面进行了分析。最后，我们批判性地审查了当前的挑战，并指出了前景广阔的研究方向以及 LLMs 的进展。通过提供对该领域技术发展的全面概述，本调查力求成为研究人员在科学 LLMs 复杂领域中的宝贵资源。

Jan, 2024

软件工程项目中对 LLMs 的使用和感知的实证研究

论文研究了大型语言模型（LLMs）在学术软件工程项目中的实用性，包括 AI 生成的代码、代码生成的提示以及将代码集成到代码库中的人工干预水平。研究结果表明，LLMs 在软件开发的早期阶段，特别是在生成基础代码结构和语法、错误调试方面，可以发挥重要作用。这些发现为我们提供了一个有效利用 LLMs 提高软件工程学生的生产力的框架，并强调了将教育重点转向为学生成功进行人工智能协作的必要性。

Jan, 2024

大型语言模型用于科学研究的跨学科视角

大型语言模型 (LLMs) 能够在不同学科领域发挥作用和限制，加强科学研究，例如通过总结大量出版物加速文献回顾，通过自动语法纠正提升代码开发，和优化科学写作过程。然而，LLMs 面临挑战，如依赖庞大且有时偏颇的数据集，以及出于使用而引发的潜在伦理困境。我们对 LLMs 在不同领域的影响进行重要讨论，从自然科学中帮助模拟复杂生物序列，到社会科学中解析大规模的定性数据。最后，我们提供一种细致的观点，认为 LLMs 既是科学进步的福音，也是其边界。

Nov, 2023

LLM-SR: 大语言模型编程实现科学方程发现

利用大型语言模型（LLMs）的广泛科学知识和强大的代码生成能力，我们引入了 LLM-SR，一种新颖的方法，以高效地从数据中发现科学方程。LLM-SR 将方程视为数学运算符的程序，并结合 LLMs 的科学先验和方程程序的进化搜索来提出新的方程框架，优化框架参数以估计数据拟合度较好的物理准确的方程。在三个不同的科学领域中展示了 LLM-SR 的有效性，发现的方程与领域内外的数据相比，提供了更好的拟合结果，并超过了现有的方程发现基准。

Apr, 2024

使用 LLMs 自动评估学生代码理解

利用 Large Language Models (LLMs) 和 encoder-based Semantic Textual Similarity (STS) 模型对编程领域学生解答的自动评估进行了比较，发现 LLMs 在少样本和思维链模式下与 fine-tuned encoder-based 模型的性能相当。

Dec, 2023