动态基准理论

ICLROct, 2022

A Theory of Dynamic Benchmarks

Ali Shirali, Rediet Abebe, Moritz Hardt

TL;DR本研究理论分析了动态基准测试的两种实现方式，第一种模型中，模型性能最初会有所提高，但只会在三轮后停滞，而第二种模型则保证了比第一种模型更多的进展，但复杂度更高，并通过模拟动态基准测试的结果来验证了理论分析，为动态基准测试提供了理论和实践上的支持。

Abstract

Dynamic benchmarks interweave model fitting and data collection in an attempt to mitigate the limitations of static benchmarks. In contrast to an extensive theoretical and empirical study of the static setting, t

dynamic benchmarking data collection model fitting label noise hierarchical dependency structure

发现论文，激发创造

一个通用的基准框架是需要动态图神经网络的

本研究论文强调了动态图学习的重要性以及其在各个领域中的应用，并强调了建立一个统一的基准框架的需求，该框架能够捕捉时间动态、不断变化的图结构和下游任务需求。建立统一的基准框架将有助于研究人员了解现有模型的优点和局限性，促进创新，推动动态图学习的进展。此外，本文认为当前动态图学习研究的一个限制是缺乏一个统一的基准框架。这样的框架将有助于准确评估模型，推动动态图学习技术的进展，为实际应用的更有效模型的开发提供可能性。

Jan, 2024

Dynabench: NLP 基准评估的重新思考

Dynabench 是一个开源平台，支持动态数据集创建和模型基准测试，可以在一个 web 浏览器中运行。通过人和模型操作，使 annotators 创建能够被目标模型误分类但另一个人不能误分类的示例。本文认为，Dynabench 解决了当前模型在基准任务上表现优异，但在简单的挑战示例和实际场景中失败的问题。我们针对四个初始 NLP 任务，阐述了这些概念，突出了 Dynabench 平台的优点，并解决了动态基准测定作为新标准引起的潜在反对意见。

Apr, 2021

动态异构学术图的公共基准测试

本研究针对机器学习模型在动态图中的学习和推理遇到的挑战，针对传统静态同构图数据集的局限性，提出了一种利用多元素科学出版涵盖的动态异构学术图数据集，测试模型预测任务的效能，并提出了一种系统方法来改善现有的图预测模型评估程序。

Apr, 2022

DynaBench: 低分辨率数据学习动态系统的基准数据集

本文介绍了一个新的模拟基准数据集 DynaBench, 用于直接从稀疏散乱的数据中学习动力系统。该数据集着重于通过低分辨率、非结构化的测量预测动力学系统的演变，并评估了几个机器学习模型（包括传统的图神经网络和点云处理模型）。

Jun, 2023

特定数据集分析的案例

数据驱动科学是一种新兴的范例，其中科学发现取决于针对具体学科的丰富数据集执行计算 AI 模型。通过现代机器学习框架，任何人都可以开发和执行计算模型，揭示隐藏在数据中的概念，从而可能支持科学应用。然而，在实际应用中，收集并计算每个可以运行的计算模型的性能代价昂贵。由于使用代表性数据集来推断性能的基准测试方法具有局限性，每个数据集都具有独特的特征，这需要引入数据集配置文件来作为模型选择过程的一部分，以选择最佳模型进行优化。

Aug, 2022

测试基准和生产数据之间上下文变化的识别

研究探讨了机器学习模型在生产数据上的脆弱性，并提出了上下文偏移的概念，探讨了三种应对上下文偏移的方法：人类直觉和专业知识辅助建模，动态基准测试提高泛化能力，提高模型的透明度，文章还通过人脸表情识别、深度伪造检测和医学诊断等三个领域对模型偏差的隐含假设进行了探讨。

Jul, 2022

多任务基准中多样性与稳定性之间的内在权衡

我们通过社会选择理论的视角研究机器学习中的多任务基准，并将基准与选举系统进行类比，其中模型是候选人，任务是选民。我们将基准系统区分为基数型和序数型两种，前者将数字得分聚合为模型排名，后者则将每个任务的排名聚合起来。我们应用阿罗不可能定理于序数型基准，突显了序数系统的固有限制，尤其是对不相关模型的敏感性。受阿罗定理的启发，我们通过新的多样性和敏感性的定量度量指标进行了实证研究，并呈现了现有多任务基准在多样性和影响不相关任务变化方面之间的明确权衡。

May, 2024

选择的非线性系统辨识基准测试的基础结果

非线性系统识别的客观比较方法，包括基准数据集、基准技术和识别方法的相对性能。

May, 2024

DACBench: 一种动态算法配置基准库

提出 DACBench，一个基准测试库，旨在收集并标准化来自不同 AI 领域的现有 DAC 基准测试，并为新的基准测试提供一个模板，实现灵活性、可复现性、可扩展性和自动化文档和可视化，以展示 DAC 的潜力、广泛适用性和挑战，并通过比较初始六个基准测试在多个难度维度上的表现来验证其有效性。

May, 2021

终身基准：快速进展时代中高效的模型评估

通过创建生命周期基准测试集，对过度依赖基准测试特异性的算法进行测试，通过引入基于动态规划算法的高效评估框架 Sort & Search（S&S）来降低评估成本，有效减少了计算成本并提供了对 “基准耗尽” 问题的可靠、实用解决方案。

Feb, 2024