终身基准：快速进展时代中高效的模型评估

Feb, 2024

终身基准：快速进展时代中高效的模型评估

Lifelong Benchmarks: Efficient Model Evaluation in an Era of Rapid Progress

Ameya Prabhu, Vishaal Udandarao, Philip Torr, Matthias Bethge, Adel Bibi...

TL;DR通过创建生命周期基准测试集，对过度依赖基准测试特异性的算法进行测试，通过引入基于动态规划算法的高效评估框架Sort & Search（S&S）来降低评估成本，有效减少了计算成本并提供了对“基准耗尽”问题的可靠、实用解决方案。

Abstract

standardized benchmarks drive progress in machine learning. However, with repeated testing, the risk of overfitting grows as algorithms over-exploit benchmark idiosyncrasies. In our work, we seek to mitigate this

发现论文，激发创造

DAWNBench分析：一个时间准确率机器学习性能基准

一篇关于深度学习优化和基准测试的研究，通过 DAWNBench 提供的数据分析了不同优化方法对最终模型准确性和训练时间的牺牲情况，发现 TTA 在评价深度学习训练效果时的可靠性较高，同时发现在进行优化训练时还需更充分地利用硬件性能和降低通信时间开销。

Jun, 2018

随机梯度下降的大批量大小计算效率低下

研究增加小批量大小以减少神经网络训练时间所面临的挑战，并通过广泛的经验分析得出，增加批量大小超过一定点对于训练或测试损失的收敛时间没有减少，而这一点通常低于当前系统的容量，说明常用的大批量优化训练策略在无法充分利用所有可用的计算资源之前就会失败。

Nov, 2018

模型相似性降低测试集过度使用

本文证明了在大尺度图像分类基准测试中，最新的提出的模型虽然其准确性相异，但其预测相似性很高，这一相似性缓解了过拟合问题。作者还根据这一相似性给出了一种新的泛化界限的数学模型，能够更好地应用于机器学习中测试数据的重复使用问题。

May, 2019

MLPerf 训练基准测试

MLPerf是一个机器学习基准测试，用于量化评估训练性能和可扩展性，解决了优化训练、随机性和系统差异等挑战。

Oct, 2019

深度学习优化器基准测试-穿越拥挤的山谷

本文通过对15种深度学习优化器的广泛基准测试，得出以下结论：(i)优化器的性能因任务而异。(ii)使用默认参数评估多个优化器大致与调整单个优化器的超参数一样好。(iii)Adam仍然是一个强有力的竞争者，其它新的方法未能显著并持续地超越它。

Jul, 2020

CLEAR基准：真实世界图像上的持续学习

本文介绍了CLEAR数据集，通过一种新颖的、可扩展的、低成本的视觉语言数据集策划方法，利用预训练的视觉语言模型CLIP交互式地构建标记数据集并进行验证，清除了错误和不合适的图像，提出了流处理评估协议并发现，流处理协议可以产生模型更普遍的、更准确的性能估计，包括半监督学习。

Jan, 2022

Benchopt: 可重现、高效和协作的优化基准

提出了Benchopt，这是一个协作框架，旨在自动化、再现和发布跨编程语言和硬件架构的机器学习优化基准测试，为社区提供了一个现成的工具，以简化基准测试，并展示了三个标准学习任务的基准测试结果，重点关注实际评估中的细节问题，以此促进社区协作工作，改善研究结果的可再生性。

Jun, 2022

动态基准理论

本研究理论分析了动态基准测试的两种实现方式，第一种模型中，模型性能最初会有所提高，但只会在三轮后停滞，而第二种模型则保证了比第一种模型更多的进展，但复杂度更高，并通过模拟动态基准测试的结果来验证了理论分析，为动态基准测试提供了理论和实践上的支持。

Oct, 2022

神经网络训练算法基准测试

本文提出了一个新的竞争性算法基准测试，AlgoPerf：训练算法基准测试，在多个工作负载上运行固定的硬件，解决了评估训练算法改进的三个基本挑战，包括如何确定训练何时结束和精确测量训练时间，如何处理测量对确切工作负载细节的敏感性，以及如何公平比较需要超参数调整的算法。在本基准测试中，评估了基线结果和各种优化器构建的基线提交，最终证明了新基准测试的可行性。

Jun, 2023

高效基准测试（语言模型）

使用LM评估的计算成本的智能减少，提高效率，保证可靠性，从而显著降低计算量并保持基准可靠性，通常减少计算量100倍或更多。

Aug, 2023