大型语言模型的配置验证

Oct, 2023

Configuration Validation with Large Language Models

Xinyu Lian, Yinfang Chen, Runxiang Cheng, Jie Huang, Parth Thakkar...

TL;DR使用大型语言模型进行配置验证的可行性和有效性的初步研究，发展了集成不同语言模型的通用验证框架 Ciri，并评估了其在六个成熟、广泛部署的开源系统的配置数据上的验证效果。

Abstract

misconfigurations are the major causes of software failures. Existing configuration validation techniques rely on manually written rules or test cases, which are expensive to implement and maintain, and are hard

misconfigurations machine learning configuration validation large language models ciri

发现论文，激发创造

LLMs 是否能配置软件工具

使用大型语言模型来改进软件配置过程，特别是在超参数配置方面，通过识别起始条件和缩小搜索空间，提高效率。在大量实验中发现，LLM 生成的响应的可变性以及基于领域特定关键词的一致行为，揭示了 LLM 在初始化过程和配置优化方面的潜力，但也强调了需要进一步深入研究和实验。

Dec, 2023

利用线性逻辑方法进行软件漏洞和功能评估

通过研究使用大型语言模型（LLMs）在代码审查中的作用，其中包括检测安全漏洞和验证软件功能的有效性，本文发现大型专有模型在这些任务上的性能显著优于小型开源模型，并证明了 LLMs 能够生成与真实漏洞相关的详细描述。

Mar, 2024

探索 LLMs 作为有针对性的合成文本数据源，以最小化高置信度的错误分类

使用大型语言模型进行数据增强，减少高置信度错误分类，并与人类数据进行比较，以降低成本并保持同样的准确性。

Mar, 2024

大型语言模型在漏洞检测方面的能力综合研究

大型语言模型在漏洞检测方面的推理能力较差，常出现错误定位漏洞代码和错误识别漏洞类型的情况。

Mar, 2024

LLM4PLC：工控系统中基于大型语言模型的可验证 PLC 编程

提出 LLM4PLC 的用户引导迭代流程，通过用户反馈和外部验证工具来改善大型语言模型（LLM）生成的代码的可验证性，提高成功生成的比例并提高代码质量。

Jan, 2024

软件渗透测试中使用大型语言模型的初步研究

利用大型语言模型（LLM）构建用于软件渗透测试的人工智能代理，通过反复使用和提示工程来提高模型性能。

Jan, 2024

使用大型语言模型分析软件供应链安全故障的实证研究

在这项研究中，我们评估了大型语言模型（LLMs）分析历史软件供应链违规行为的能力。我们使用 LLMs 复制了 Cloud Native Computing Foundation (CNCF) 成员对 69 个软件供应链安全违规行为的手动分析，并根据四个维度开发了 LLMs 的提示：侵害类型、意图、性质和影响。我们报告了当源文章足够详细以便在手动分析员中形成共识时，LLMs 能够有效地描述软件供应链违规行为，但不能取代人工分析员。未来的工作可以提高 LLMs 在这个背景下的性能，并研究更广泛的文章和违规行为。

Aug, 2023

基于生成式人工智能的自动标注需要验证

通过验证人类生成的标签，我们提出了一种工作流程，以有效利用 LLM 的注释潜力，然后使用 GPT-4 复制 27 个注释任务，发现文本注释的 LLM 性能很有前途，但高度依赖数据集和注释任务类型，从而强调了必须逐任务验证的必要性。我们提供易于使用的软件，用于实现我们的工作流程，以便自动化注释的 LLM 部署。

May, 2023

关于 LLMs 的隐含风险评估：关于鲁棒性，一致性和可信度的实证研究

本研究使用自动化工作流程，对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询，得出了 LLM 在稳健性、一致性和可信度方面存在的问题，提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。

May, 2023

利用大型语言模型进行软件漏洞检测：综合基准研究

通过使用大型语言模型（LLMs）来辅助发现源代码中的漏洞，相比传统的静态分析工具，我们发现 LLMs 能够找出更多问题，提高漏洞检测的回溯率和 F1 分数，从而使得代码更加安全。

May, 2024