- 使用质量属性场景进行机器学习模型测试用例生成
通过质量属性场景提供的方法,可支持机器学习模型进行测试,以便超越性能测试,早期发现开发过程中的失败情况。
- 探索模糊测试作为神经测试生成的数据增强
本文介绍了一种将模糊测试和大型语言模型相结合的新型数据增强技术 **FuzzAug**,用于增强神经测试生成数据集,从而提高代码生成模型的准确性和分支覆盖率,增强自动化软件测试的效用。
- 算法稳定性可测试吗?在计算限制下的统一框架
算法稳定性是学习理论中的一个核心概念,它量化了算法对训练数据中微小变化的敏感性。如果学习算法满足特定的稳定性属性,这将导致许多重要的下游影响,如泛化性能、鲁棒性和可靠的预测推理。然而,最近的研究结果表明,对于黑盒算法而言,在有限来自未知分布 - 软件测试中的测试用例优先级模糊推理系统
该论文介绍了一种基于模糊逻辑的新型方法,利用模糊语言变量和专家定义的模糊规则,通过建立测试用例特征和其优先级之间的关联,自动化测试用例优先级排序(TCP),以提高测试效率。实验验证结果表明,该方法能够有效地对测试用例进行排序,优化测试用例优 - 测试和学习局部哈密顿量的简单算法
通过对 Pauli 谱的 2 - 范数或归一化 Frobenius 范数的演化算符进行查询,构建了 “n” 量子比特 “k” 局域哈密顿的测试和学习问题。通过我们的研究,解决了在 Bluhm,Caro 和 Oufkir 最近的工作中提出的两 - OntoChat:一种使用语言模型进行对话本体工程的框架
本研究论文介绍了一个名为 OntoChat 的对话式本体工程框架,支持需求获取、分析和测试,并通过复制音乐元本体的工程过程以及用户的初步评估指标来验证其有效性。
- 基于邻域覆盖和相似性的自动驾驶车辆少样本场景测试
自动驾驶汽车 (AVs) 的安全性能测试和评估在大规模部署之前是必不可少的。本文首次将问题建模为 “少样本测试”(FST) 问题,并提出了一个系统性的 FST 框架来应对这一挑战,通过利用代理模型 (SMs) 的先验信息,动态调整测试场景集 - 代码感知提示:在使用 LLM 进行回归设置下的覆盖率引导测试生成研究
对测试生成的向搜索引擎软件测试方法(Search Based Software Testing,SBST)进行了改进,使用大型语言模型(LLMs)和 SymPrompt 自动生成更全面的测试案例,提高测试质量与覆盖率。
- 机器视觉冰山解析:在考虑整体环境条件的情况下推进动态测试
当前的机器视觉测试是否在走向一次巨大灾难?本研究探讨了机器视觉测试的现状与潜在缺陷,并提出了一个层级模型 ——Granularity Grades,该模型致力于对环境情境中各实体的综合认知。通过构建实体关系图,并对图中的关系模式进行聚类分析 - CAT-LM: 训练基于对齐的代码和测试的语言模型
CAT-LM 是一个使用 27 亿参数在 Python 和 Java 项目语料库上进行训练的新颖的预训练信号,通过考虑代码和测试文件之间的映射来生成与开发人员相似的测试代码,并且在生成测试完成时比更大的语言模型和最近的测试特定模型表现更好。
- 基于模拟的自动驾驶辅助系统安全验证,包含学习能力组件
自动驾驶和驾驶辅助系统领域的安全保障、测试验证和验证安全关键应用的方法仍然是主要挑战之一,本文介绍了基于仿真的开发平台,用于验证和验证连续工程循环中的安全关键学习型系统。
- 评估聊天机器人以促进用户信任 —— 实践与开放问题
聊天机器人是一种人工智能软件,能够与人们自然交互以完成任务。本文回顾了当前的聊天机器人测试实践,指出了用户信任的问题和解决方案。
- 评估用于深度神经网络的测试选择方法的稳健性
通过探索测试选择方法的失败情况和弊端,本文证实了这些方法在故障检测和性能估计方面存在可靠性问题,并提出了相应的解决方案。
- 深度学习测试中重新思考多样性
本文讨论了深度学习系统在测试中存在的漏洞和不公平性问题,提出了使用 6 个度量标准进行有针对性的测试的方法,并以实验证明该方法比传统多样性方法更为有效。同时,指出了软件工程界和深度学习领域之间存在的差异,以期在未来拓宽两者的研究实践。
- D-Score:一种基于变异算子的 CNN 白盒诊断评分
本文提出了一种白盒诊断方法,使用变异运算符和图像转换来计算模型的特征和注意力分布,并提出了一种诊断得分(D-Score)来反映模型的稳健性和适应数据集的程度,结合数据增强方法增强卷积神经网络的性能,实验表明该方法的有效性。
- ASDF:自动语音识别系统的差分测试框架
该论文提出了 ASDF(Automated Speech Recognition Differential Testing Framework)自动语音识别差异性测试框架,通过文本转换和音素分析模块生成更多高质量的音频测试用例,有助于改善 - 自动常识推理基准:一项调查
论文概述了 AI commonsense benchmarks 的发展与应用、common sense 的本质及其在 AI 中的作用、构建 commonsense benchmarks 所服务的目标和理想特征。作者分析了现有 benchma - 了解机器学习系统中的复杂性及其对测试的影响
通过对 Rasa 3.0 进行案例研究,本文采用了系统视角并分析其对测试的影响,揭示了机器学习系统视角下的软件工程实践问题。
- 基于奖励的可配置智能体:游戏风格连续体生成
本文提出了一种利用强化学习算法设计视频游戏测试的方法 --CARI 代理,相比于传统的基于奖励函数规划的算法,CARI 能更好地模拟多样的游戏风格,并能够通过单次训练达到传统方法的多倍效果,该新型代理可以用于游戏行为及平衡性调整等方面的研究 - 深度学习的分层分布感知测试
本文提出了一种新的鲁棒性测试方法,考虑到输入分布和输入质量,在特征和像素级别进行分层分析,证实该方法在检测对抗性样本和改进深度学习模型鲁棒性方面比现有技术更加优越。