使用大型语言模型来改进软件配置过程,特别是在超参数配置方面,通过识别起始条件和缩小搜索空间,提高效率。在大量实验中发现,LLM 生成的响应的可变性以及基于领域特定关键词的一致行为,揭示了 LLM 在初始化过程和配置优化方面的潜力,但也强调了需要进一步深入研究和实验。
Dec, 2023
通过研究使用大型语言模型(LLMs)在代码审查中的作用,其中包括检测安全漏洞和验证软件功能的有效性,本文发现大型专有模型在这些任务上的性能显著优于小型开源模型,并证明了 LLMs 能够生成与真实漏洞相关的详细描述。
Mar, 2024
使用大型语言模型进行数据增强,减少高置信度错误分类,并与人类数据进行比较,以降低成本并保持同样的准确性。
大型语言模型在漏洞检测方面的推理能力较差,常出现错误定位漏洞代码和错误识别漏洞类型的情况。
提出 LLM4PLC 的用户引导迭代流程,通过用户反馈和外部验证工具来改善大型语言模型(LLM)生成的代码的可验证性,提高成功生成的比例并提高代码质量。
Jan, 2024
利用大型语言模型(LLM)构建用于软件渗透测试的人工智能代理,通过反复使用和提示工程来提高模型性能。
在这项研究中,我们评估了大型语言模型(LLMs)分析历史软件供应链违规行为的能力。我们使用 LLMs 复制了 Cloud Native Computing Foundation (CNCF) 成员对 69 个软件供应链安全违规行为的手动分析,并根据四个维度开发了 LLMs 的提示:侵害类型、意图、性质和影响。我们报告了当源文章足够详细以便在手动分析员中形成共识时,LLMs 能够有效地描述软件供应链违规行为,但不能取代人工分析员。未来的工作可以提高 LLMs 在这个背景下的性能,并研究更广泛的文章和违规行为。
Aug, 2023
通过验证人类生成的标签,我们提出了一种工作流程,以有效利用 LLM 的注释潜力,然后使用 GPT-4 复制 27 个注释任务,发现文本注释的 LLM 性能很有前途,但高度依赖数据集和注释任务类型,从而强调了必须逐任务验证的必要性。我们提供易于使用的软件,用于实现我们的工作流程,以便自动化注释的 LLM 部署。
May, 2023
本研究使用自动化工作流程,对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询,得出了 LLM 在稳健性、一致性和可信度方面存在的问题,提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。
通过使用大型语言模型(LLMs)来辅助发现源代码中的漏洞,相比传统的静态分析工具,我们发现 LLMs 能够找出更多问题,提高漏洞检测的回溯率和 F1 分数,从而使得代码更加安全。
May, 2024