MLPerf 训练基准测试
为了解决机器学习中数据集本质重要性被忽视的问题,本研究提出了 DataPerf,一个用于评估机器学习数据集和算法的基准包,旨在加速数据为中心人工智能开发的发展。
Jul, 2022
本文提出了一个新的竞争性算法基准测试,AlgoPerf:训练算法基准测试,在多个工作负载上运行固定的硬件,解决了评估训练算法改进的三个基本挑战,包括如何确定训练何时结束和精确测量训练时间,如何处理测量对确切工作负载细节的敏感性,以及如何公平比较需要超参数调整的算法。在本基准测试中,评估了基线结果和各种优化器构建的基线提交,最终证明了新基准测试的可行性。
Jun, 2023
本文介绍了一个可访问、策划和开发的公共基准资源,用于促进不同机器学习方法的优缺点的识别。我们比较了这一资源中当前一组基准数据集的元特征,以表征可用数据的多样性。最后,我们应用了一些已经建立的机器学习方法到整个基准套件,并分析数据集和算法在性能方面是如何聚类的。该工作是了解流行基准套件的限制并开发将现有的基准标准与未来更多样化和有效标准相连接的资源的重要第一步。
Mar, 2017
本文提出了 “基准测试彩票” 的概念,以描述机器学习基准测试过程的整体脆弱性,指出基准测试流程中的许多因素可能导致某种方法被认为优越。同时,本文通过选择不同的基准任务,揭示了算法的相对性能可能会显著改变,强调了当前范式的脆弱性,并提出了缓解这种情况的建议。
Jul, 2021
在大数据和机器学习、深度学习以及人工智能算法得到越来越多支持的时代,急需标准化的应用基准来对这些新技术进行压力测试和评估。本文在基于标准化的 BigBench (TPCx-BB) 基准的基础上,通过引入三个新的工作负载和扩展机器学习算法的覆盖范围,丰富了改进版的 BigBench V2。我们的工作负载使用多种算法,并对同一算法在多个流行的库中(如 MLlib、SystemML、Scikit-learn 和 Pandas)的不同实现进行比较,展示了我们基准扩展的相关性和可用性。
Jun, 2024
本文介绍 DeepPERF,一种基于 transformer 的方法,可用于建议改进 C# 应用程序的性能问题,通过预训练和调优,我们的模型能够在 53% 的情况下生成与开发人员修复相同的性能改进建议,在 50 个开源的 C# 仓库上评估表明我们的模型能够提供有效的性能改进建议。
Jun, 2022
本研究旨在提出可用于机器学习算法基准测试的 OpenML 基准测试集合,以标准化基准测试的设置、执行和报告,并提供一种针对分类任务的基准测试套件:OpenML Curated Classification benchmarking suite 2018。
Aug, 2017
通过模拟对比机器学习算法的整个基准测试过程,我们发现数据采样、参数初始化和超参数选择对结果的影响显著。进一步分析今天所用的主要比较方法,我们提出一种反直觉的结果,即在不增加计算成本的情况下,将更多的变化源添加到不完美的估计器中可以接近更理想的估计器。通过五个不同的深度学习任务和架构,分析改进检测错误率,提出了性能比较的建议。
Mar, 2021
通过利用目标硬件架构和初始参数扫描,我们提出了一种新的性能建模方法,显着减少了训练样本的数量,同时保持较高的准确性。我们的方法针对单层估计达到 0.02% 的平均绝对百分比误差(MAPE),针对整个深度神经网络的估计达到 0.68% 的 MAPE,仅需不到 10000 个训练样本,相比于随机抽样的模型,实验结果证明了我们方法在单层估计中的优越性。
Jun, 2024