用于组合测试的基准生成器
本文探讨了如何采用组合测试技术来测试深度学习系统,以提高其鲁棒性,从而及早发现漏洞。作者提出了一套 DL 系统覆盖度准则和 CT 覆盖度引导测试生成技术,并通过实验证明组合测试可以有效地降低测试空间并提高其缺陷检测能力。此外,还对深度学习系统的组合测试提出了一些未解之问和有趣的方向。
Jun, 2018
CTBENCH 是一个统一的库和高质量的基准测试,用于证明训练。通过在公平设置和系统调整的超参数下评估所有算法,CTBENCH 展示了几乎所有算法超越了文献中所报道的性能,并建立了新的最先进方法,同时揭示了近期算法的优势在强化基线后明显减弱。基于 CTBENCH,我们为当前的证明训练状态提供了新的见解,并提出了未来的研究方向。我们相信 CTBENCH 将成为证明训练未来研究的基准和测试平台。
Jun, 2024
提出了一种名为 Computation Graph Transformer(CGT)的图形生成模型,它可以在保证隐私的前提下,生成大规模真实世界图的有效基准图,用于作为 Graph Neural Networks 模型的基准测试。
Jul, 2022
Bayesian optimization and compiler autotuning research is advanced through the use of CATBench, a benchmarking suite that captures the complexities of compiler autotuning using machine learning-oriented computations.
Jun, 2024
该研究论文提供了现有方法的综合分类和整合,建立了统一的评估基准,并阐明了端到端训练在不同场景下的改进情况及其表现不佳的背景。此外,还介绍了一个用于工业组合式广告问题的新数据集,以帮助更方便的评估和部署,鼓励在学术界和工业界进一步的改进。
Nov, 2023
本文介绍了一种利用现代约束编程语言中的类级别模型自动生成基准实例数据,以重点生成有效和有信息量的基准实例的框架,可评估可行解决方案的相对性能。使用此框架对五个问题进行研究,不仅排名解算器,还通过查找解算器表现显著变化的实例子集,为我们提供了一个更完整的解算器行为理解。
May, 2022
开发一个基于分布的合成性评估框架,利用 Europarl 翻译语料库创建训练集和测试集,测试神经机器翻译系统在未训练依赖关系上的能力。
Nov, 2023
CTBench 是一个用于评估语言模型在辅助临床研究设计方面的基准测试,通过给定特定研究元数据,CTBench 评估人工智能模型在确定临床试验的基线特征方面的能力,包括从所有参与者开始收集的人口统计学和相关特征。
Jun, 2024
综述 300 多个用于评估优化和元启发式算法的基准函数,列出了最常用的 25 个函数,并提出了两个新颖、高维、动态且具有挑战性的函数用于测试新算法,同时指出了当前基准化方法的不足之处,并提出了未来研究的方向。
Jun, 2024