用于组合测试的基准生成器

Dec, 2022

A Benchmark Generator for Combinatorial Testing

Carlos Ansotegui, Eduard Torres

TL;DR本文介绍了一个基于其他研究领域的组合问题结构的新型组合测试基准生成器，并使用这些新的基准对 CT 工具进行了广泛的评估，以提供关于在什么情况下使用特定 CT 工具的一些见解。

Abstract

combinatorial testing (CT) tools are essential to test properly a wide range of systems (train systems, Graphical User Interfaces (GUIs), autonomous driving systems, etc). While there is an active research community working on developing →

combinatorial testing ct tools benchmarks evaluation research areas

发现论文，激发创造

深度学习系统的组合测试

本文探讨了如何采用组合测试技术来测试深度学习系统，以提高其鲁棒性，从而及早发现漏洞。作者提出了一套 DL 系统覆盖度准则和 CT 覆盖度引导测试生成技术，并通过实验证明组合测试可以有效地降低测试空间并提高其缺陷检测能力。此外，还对深度学习系统的组合测试提出了一些未解之问和有趣的方向。

Jun, 2018

CTBENCH：认证训练库和基准

CTBENCH 是一个统一的库和高质量的基准测试，用于证明训练。通过在公平设置和系统调整的超参数下评估所有算法，CTBENCH 展示了几乎所有算法超越了文献中所报道的性能，并建立了新的最先进方法，同时揭示了近期算法的优势在强化基线后明显减弱。基于 CTBENCH，我们为当前的证明训练状态提供了新的见解，并提出了未来的研究方向。我们相信 CTBENCH 将成为证明训练未来研究的基准和测试平台。

Jun, 2024

用于基准测试图神经网络的图生成模型

提出了一种名为 Computation Graph Transformer（CGT）的图形生成模型，它可以在保证隐私的前提下，生成大规模真实世界图的有效基准图，用于作为 Graph Neural Networks 模型的基准测试。

Jul, 2022

CATBench: 黑盒优化的编译器自动调优基准套件

Bayesian optimization and compiler autotuning research is advanced through the use of CATBench, a benchmarking suite that captures the complexities of compiler autotuning using machine learning-oriented computations.

Jun, 2024

组合优化问题中预测 - 优化范式的反思与基准测试

该研究论文提供了现有方法的综合分类和整合，建立了统一的评估基准，并阐明了端到端训练在不同场景下的改进情况及其表现不佳的背景。此外，还介绍了一个用于工业组合式广告问题的新数据集，以帮助更方便的评估和部署，鼓励在学术界和工业界进一步的改进。

Nov, 2023

生成富有信息的基准示例的框架

本文介绍了一种利用现代约束编程语言中的类级别模型自动生成基准实例数据，以重点生成有效和有信息量的基准实例的框架，可评估可行解决方案的相对性能。使用此框架对五个问题进行研究，不仅排名解算器，还通过查找解算器表现显著变化的实例子集，为我们提供了一个更完整的解算器行为理解。

May, 2022

在小学可视化编程中对生成模型进行计算思维测试的基准评估

通过使用基于符号方法生成的综合数据集，对生成模型进行微调以提高在计算思维测试中的表现。

Jun, 2024

使用基于分布的组合性评估方法评估机器翻译的组合推广能力

开发一个基于分布的合成性评估框架，利用 Europarl 翻译语料库创建训练集和测试集，测试神经机器翻译系统在未训练依赖关系上的能力。

Nov, 2023

CTBench: 临床试验设计中评估语言模型能力的综合基准

CTBench 是一个用于评估语言模型在辅助临床研究设计方面的基准测试，通过给定特定研究元数据，CTBench 评估人工智能模型在确定临床试验的基线特征方面的能力，包括从所有参与者开始收集的人口统计学和相关特征。

Jun, 2024

机器学习优化算法和元启发式算法的 315 个基准和测试函数的综述与数学及可视化描述

综述 300 多个用于评估优化和元启发式算法的基准函数，列出了最常用的 25 个函数，并提出了两个新颖、高维、动态且具有挑战性的函数用于测试新算法，同时指出了当前基准化方法的不足之处，并提出了未来研究的方向。

Jun, 2024