使用 LLM 自动化 REST API Postman 测试用例
本文通过详细的案例研究,探讨了在软件工程背景下,应用大型语言模型(LLMs)构建测试用例的方法。通过定性和定量分析,评估了 LLMs 对测试用例全面性、准确性和效率的影响,并讨论了模型可解释性、伦理考虑和适应不同软件环境的挑战。本研究的结果为软件测试领域中应用 LLMs 提供了实用性见解,旨在促进对 LLMs 在优化软件开发过程中作用的全面理解。
Dec, 2023
评估预训练的大型语言模型(LLMs)在复制开发人员在代码审查评论中传统执行的任务方面的效果,通过比较它们生成的修补程序集与相同代码库的人工生成的修补程序集的历史数据,来确定 LLMs 的反馈的准确性、相关性和深度,从而评估它们支持开发人员应对代码审查评论的准备程度。
Apr, 2024
论文研究了大型语言模型(LLMs)在学术软件工程项目中的实用性,包括 AI 生成的代码、代码生成的提示以及将代码集成到代码库中的人工干预水平。研究结果表明,LLMs 在软件开发的早期阶段,特别是在生成基础代码结构和语法、错误调试方面,可以发挥重要作用。这些发现为我们提供了一个有效利用 LLMs 提高软件工程学生的生产力的框架,并强调了将教育重点转向为学生成功进行人工智能协作的必要性。
Jan, 2024
使用大型语言模型(LLMs)在网络安全中模拟后入侵阶段的攻击,通过将 LLMs 自动化来改善组织的网络安全状况,扩展红队的效力并预先检测新型攻击行为。
Mar, 2024
通过引入 ToolLLM,一个包括数据构建、模型训练和评估的通用工具使用框架,我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用 ChatGPT 创建一个工具使用指导数据集 ToolBench,并使用深度优先搜索决策树(DFSDT)扩展搜索空间,有效地获取有效的解决方案路径。通过对 LLaMA 进行微调后得到 ToolLLaMA,我们的评估器 ToolEval 显示 ToolLLaMA 在执行复杂指令和推广到未见过的 API 方面表现出卓越的能力,并与 ChatGPT 有着相当的性能。为了使流程更加实用,我们设计了一个神经 API 检索器以为每个指令推荐适当的 API,省去了手动选择 API 的繁琐步骤。
Jul, 2023
大型语言模型(LLMs)正在改变人工智能,使得自主代理能够在不同领域执行多样化任务。这些代理具备类似人类的文本理解和生成能力,有望在从客户服务到医疗保健等各个领域引发革命。然而,它们面临着诸如多模态、人类价值取向、幻觉和评估等挑战。推动、推理、工具利用和上下文学习等技术正在被探索,以增强它们的功能。像 AgentBench、WebArena 和 ToolLLM 这样的评估平台为在复杂场景中评估这些代理提供了强大的方法。这些进展正在引领更加有韧性和能力的自主代理的发展,预计它们将成为我们数字生活中不可或缺的一部分,协助我们完成从邮件回复到疾病诊断等任务。拥有 LLMs 带头的人工智能的未来充满了希望。
Apr, 2024
使用大型语言模型(LLMs)生成高质量的测试用例是一个重要问题,目前的研究主要集中在改进代码生成过程中通过 LLMs 生成辅助测试用例的性能,而 LLMs 在仅生成测试用例方面的性能尚未全面研究。为了填补这一空白,本文通过大量实验研究了 LLMs 生成高质量测试用例的能力,并提出了一种名为 TestChain 的多代理框架,通过与 Python 解释器的交互提供更准确的测试输出,实验结果表明 TestChain 在测试用例准确性上明显优于基准模型,其中使用 GPT-4 作为基础的 TestChain 在 LeetCode-hard 数据集上相比基准模型改进了 13.84%。
Apr, 2024
该研究探讨了在奥地利邮政集团信息技术敏捷团队中利用大型语言模型自动改善用户故事质量的方法,并基于自主的 LLM-Agent 系统开发了参考模型,并将其应用于公司。通过对六个敏捷团队的 11 名参与者进行用户故事质量评估,我们的研究结果证明了 LLMs 在提高用户故事质量方面的潜力,为敏捷开发中人工智能角色的研究做出了贡献,并提供了人工智能在行业环境中具有转变性影响的实际示例。
Mar, 2024