- 代理代码是最先进的软件测试员
使用大型语言模型的代码代理在形式化用户问题为测试用例方面具有重要能力,并且在生成相关测试用例方面表现出众,尤其是在代码修复方面,生成的测试用例是提出代码修复的一个有效过滤器。
- PLUM: 偏好学习加测试用例产生更好的代码语言模型
PLUM 是一个增加了针对代码 LM 的测试用例的偏好学习框架,它通过三个阶段的实验表明,PLUM 显著提高了现有代码 LM 在代码生成任务中的性能,并与监督微调阶段相互协作产生协同效应。
- 使用 LLM 自动化 REST API Postman 测试用例
自动化生成测试用例的研究论文,使用大型语言模型来提高测试用例生成的效率和全面性,并利用自动化工具 Postman 进行 API 测试。
- AAAI利用大型语言模型进行计算机科学教育中学生代码引导的测试用例生成
我们提出了一种基于大型语言模型的自动测试用例生成方法,证明它们是衡量学生知识的良好指标,使用了一个包含学生编写的 Java 代码的公开数据集,并讨论了以测试用例帮助学生为中心的未来研究方向。
- 大型语言模型中的性别偏见煽动与缓解之学习
自动检测大型语言模型(如 ChatGPT 和 GPT-4)潜在性别偏见的研究,提出了一种自动生成测试用例的方法,并通过这些测试用例来减轻模型偏见,从而实现更公正的回复。
- 超越测试者的偏见:使用知识库指导模型测试
通过使用大型语言模型和知识库,建议解决方案入手,Weaver 工具支持需求提取,帮助测试人员发现更多、更多样化的概念,用于进一步测试,促使测试人员系统性地探索自己之外的概念,通过用户研究和案例分析表明 Weaver 能帮助测试人员在实际环境 - 使用代码语法特征的分布式表示进行测试用例推荐
通过利用结构和语义特性,我们提出了一种自动化方法来推荐对开发人员最相关且最有用的单元测试,从而显著提高软件测试过程的效果和效率。使用神经网络将源代码方法和单元测试转化为分布式表示,并根据嵌入向量的相似度,识别出最相似的嵌入方法和相关单元测试 - 智能自动化软件测试框架 TestLab
TestLab 是一款智能自动化软件测试框架,它使用人工智能来收集一组测试方法并将其自动化,以允许对软件系统进行连续的多层级测试,包括从开发人员到最终用户的不同层次,增强了传统自动化软件测试,可以通过源代码分析自动生成测试用例,旨在加速软件 - 使用语言模型对语言模型进行红队测试
使用红队技术,在基于语言模型的聊天机器人中生成测试用例以检测有害行为,并训练分类器检测模型产生的攻击性内容,从而发现数万条攻击性回复。这是一种在影响用户之前找到和修复各种不良行为的工具。
- 基于失败测试用例的相似度预测补丁的正确性
利用未监督学习的深度表示学习模型来预测 APR 中补丁的正确性,通过历史类似测试用例的补丁和失败测试用例的相似度指标来评估生成补丁的正确性,并与现有方法进行比较。
- ACLHateCheck:仇恨言论检测模型的功能测试
介绍 HateCheck,一个用于针对仇恨言论检测模型的功能测试套件,其中包括 29 个模型功能,为每个功能编写测试用例,并通过结构化注释过程验证其质量。测试表明,近最先进的变换器模型以及两个流行的商业模型存在关键的模型弱点。
- 超越准确度:使用 CheckList 进行 NLP 模型的行为测试
本文介绍了一种基于行为测试原则的 NLP 模型测试方法 - CheckList,它包括常规语言能力和测试类型矩阵以及可用于快速生成大量不同测试用例的软件工具。 用户研究表明,与没有使用 CheckList 的用户相比,使用 CheckLis - NESTA,NICTA 能源系统测试案例归档
该研究旨在评估并优化电力系统的测试案例,并开发了一个名为 NESTA 的综合档案库来支持这一过程。