全球基准数据库

May, 2024

Global Benchmark Database

Markus Iser, Christoph Jabs

TL;DR该研究论文介绍了全球基准数据库（GBD），一套完整的工具，用于供应和可持续维护基准实例及其元数据。GBD 的数据模型、接口和示例以及如何与其进行交互，已经通过集成自定义数据源和扩展问题领域、实例格式和特征提取器的方法来进行演示。

Abstract

This paper presents global benchmark database (GBD), a comprehensive suite of tools for provisioning and sustainably maintaining benchmark instances and their →

global benchmark database benchmark instances metadata data model problem domains

发现论文，激发创造

RDBench: 关系数据库的机器学习基准测试

通过引入 ML Benchmark For Relational Databases (RDBench) 标准化基准测试，旨在促进多表关系数据库上可复现的机器学习研究，RDBench 为不同的机器学习领域提供多样的关系数据库数据集，使得从 XGBoost 到图神经网络等不同领域的 ML 方法可以进行有意义的比较和评估。

Oct, 2023

GenBench: 用于对基因组基础模型进行系统评估的基准套件

通过引入 GenBench，我们为评估 Genomic Foundation Models 的功效提供了一个全面的基准测试套件，该套件特别针对包括编码区域、非编码区域、基因组结构等在内的三个最重要的 DNA 任务。我们的研究结果揭示了一个有趣的观察结果：无论参数数量如何，注意力模型和卷积模型在短程和长程任务上的偏好存在显著差异，这可以为未来的 GFM 设计提供启示。

Jun, 2024

OpenGDA：面向跨网络学习的图领域自适应基准

图领域适应模型在跨网络学习任务中得到广泛应用，目的是传递标记或结构知识。我们提出了一个名为 OpenGDA 的基准，它提供了丰富的预处理和统一数据集以进行不同类型的任务评估，并整合了最先进的模型和标准化的端到端流程。OpenGDA 是一个用户友好、可扩展和可复制的基准，可用于评估图领域适应模型在真实世界应用中的性能和挑战。

Jul, 2023

用于时态图机器学习的时态图基准测试

Temporal Graph Benchmark 是一个收集了各种涉及社交、贸易、交通等网络领域的大规模数据集，用于实现机器学习模型在时间图上的现实、可重复和强大的评估。此外，该研究表明对于动态节点属性预测任务，简单的方法往往比现有的时间图模型表现更好，并提供了一个自动化的机器学习流程用于可重复和可访问的时间图研究。

Jul, 2023

SustainBench：利用机器学习监测可持续发展目标的基准

该研究介绍了 SustainBench，它涵盖了与经济发展、农业、健康、教育、水和卫生、气候行动以及陆地生活有关的 15 个基准任务，旨在通过提供标准基准来评估机器学习模型在各种可持续发展目标上的任务，在数据方面降低机器学习社区的参与门槛，并鼓励发展新的机器学习方法，以促进实现可持续发展目标的进展.

Nov, 2021

4DBInfer：面向关系数据库的图中心预测建模的 4D 性能评估工具箱

通过将多表数据集转化为图形并利用有效的子采样策略保留表格特性，以及输出基于这些输入子图的预测的具有相匹配归纳偏差的可训练模型，该研究试图解决关于关系型数据库 (RDBs) 的预测模型发展方面存在的问题，并提供了一个包含多尺度 RDB 数据集以及一致的预测任务的基准集，通过一个名为 4DBInfer 的统一可扩展开源工具箱来探索这些问题的 4 个方面。

Apr, 2024

面向图机器学习的数据集：Open Graph Benchmark

本研究介绍了 Open Graph Benchmark（OGB），它是一个包含多个重要图形机器学习任务的大规模数据集，为规模化、坚固性、再现性图形机器学习研究提供了有挑战的、真实的基准数据集，并提供一个统一的评估协议，其中包括有意义的特定于应用程序的数据拆分和评估指标。同时，OGB 提供了一个自动化的端到端图形机器学习管道，简化了图形数据加载、实验设置和模型评估的流程。

May, 2020

PMLB: 机器学习评估和比较的大型基准测试套件

本文介绍了一个可访问、策划和开发的公共基准资源，用于促进不同机器学习方法的优缺点的识别。我们比较了这一资源中当前一组基准数据集的元特征，以表征可用数据的多样性。最后，我们应用了一些已经建立的机器学习方法到整个基准套件，并分析数据集和算法在性能方面是如何聚类的。该工作是了解流行基准套件的限制并开发将现有的基准标准与未来更多样化和有效标准相连接的资源的重要第一步。

Mar, 2017

IGB：填补公共图数据集中标签、特征、异质性和大小方面的空缺，用于深度学习研究

本文介绍了伊利诺伊图基准（Illinois Graph Benchmark，IGB），是一种可用于高度准确地培训、审查和系统评估 GNN 模型的研究数据集工具，其中包括大量的同质和异质图，超过 40％的节点被标记，提供了比最大的图数据集公开可用更多的标记数据，还具有灵活性，使得研究各种 GNN 体系结构、嵌入式生成技术并分析系统性能问题成为可能。

Feb, 2023

LakeBench：数据湖上的数据发现基准测试

在数据湖之中，企业内部需要智能地进行数据发现，特别是关于找到相关的数据表。该文提出了使用不同数据源的表格来开发多个用于这些任务的基准测试，并比较了 4 个公开可用的表格模型在这些任务上的表现，结果显示这些模型在数据发现任务上有很大的改进空间。建立这样的基准测试对于社区构建适用于数据湖中数据发现的表格模型可能是有用的。

Jul, 2023