RDBench: 关系数据库的机器学习基准测试

Oct, 2023

RDBench: 关系数据库的机器学习基准测试

RDBench: ML Benchmark for Relational Databases

Zizhao Zhang, Yi Yang, Lutong Zou, He Wen, Tao Feng...

TL;DR通过引入 ML Benchmark For Relational Databases (RDBench) 标准化基准测试，旨在促进多表关系数据库上可复现的机器学习研究，RDBench 为不同的机器学习领域提供多样的关系数据库数据集，使得从 XGBoost 到图神经网络等不同领域的 ML 方法可以进行有意义的比较和评估。

Abstract

Benefiting from high-quality datasets and standardized evaluation metrics, machine learning (ML) has achieved sustained progress and widespread applications. However, while applying machine learning to

machine learning relational databases benchmark rdbench ml research

发现论文，激发创造

4DBInfer：面向关系数据库的图中心预测建模的 4D 性能评估工具箱

通过将多表数据集转化为图形并利用有效的子采样策略保留表格特性，以及输出基于这些输入子图的预测的具有相匹配归纳偏差的可训练模型，该研究试图解决关于关系型数据库 (RDBs) 的预测模型发展方面存在的问题，并提供了一个包含多尺度 RDB 数据集以及一致的预测任务的基准集，通过一个名为 4DBInfer 的统一可扩展开源工具箱来探索这些问题的 4 个方面。

Apr, 2024

3DBench：可扩展的 3D 基准测试和指令调优数据集

评估多模态大型语言模型（MLLMs）的性能，集成点云和语言，面临重大挑战。缺乏全面评估阻碍确定这些模型是否真正代表进步，从而妨碍该领域的进一步发展。我们引入了可扩展的 3D 基准测试和大规模指令调整数据集 3DBench，提供了一个全面评估 MLLMs 的可扩展平台，以解决这些问题。该基准测试覆盖了从物体级到场景级的广泛空间和语义范围，涉及感知和规划任务，并且我们提出了一个严格的流程来自动生成可扩展的 3D 指令调整数据集，总共涵盖了 10 个多模态任务，共生成了超过 23 万个问答对。通过对热门 MLLMs 的彻底实验评估、与现有数据集的比较以及训练方案的变异，我们展示了 3DBench 的优越性，为当前的局限性和潜在研究方向提供了有价值的见解。

Apr, 2024

ERBench: 大型语言模型的基于实体关系的自动可验证幻觉基准

利用已有的关系数据库通过实体 - 关系模型自动构建基准测试，并能够对大型语言模型进行多样问题类型的评估分析。

Mar, 2024

关系深度学习：关系数据库上的图表示学习

关系数据库中的数据存储方式使得使用机器学习模型变得具有挑战性和耗时，通过引入关系深度学习（RDL）方法，我们可以直接学习跨多个表格布置的数据，而无需进行手动特征工程。关系深度学习通过自动学习图引导，从而提取利用所有输入数据的表示，从而构建更准确的模型且速度更快。

Dec, 2023

PMLB: 机器学习评估和比较的大型基准测试套件

本文介绍了一个可访问、策划和开发的公共基准资源，用于促进不同机器学习方法的优缺点的识别。我们比较了这一资源中当前一组基准数据集的元特征，以表征可用数据的多样性。最后，我们应用了一些已经建立的机器学习方法到整个基准套件，并分析数据集和算法在性能方面是如何聚类的。该工作是了解流行基准套件的限制并开发将现有的基准标准与未来更多样化和有效标准相连接的资源的重要第一步。

Mar, 2017

Dynabench: NLP 基准评估的重新思考

Dynabench 是一个开源平台，支持动态数据集创建和模型基准测试，可以在一个 web 浏览器中运行。通过人和模型操作，使 annotators 创建能够被目标模型误分类但另一个人不能误分类的示例。本文认为，Dynabench 解决了当前模型在基准任务上表现优异，但在简单的挑战示例和实际场景中失败的问题。我们针对四个初始 NLP 任务，阐述了这些概念，突出了 Dynabench 平台的优点，并解决了动态基准测定作为新标准引起的潜在反对意见。

Apr, 2021

TabReD：一个野外表格机器学习基准

本文研究了标准机器学习中现成的表格式基准数据集存在的问题，并引入了 TabReD 数据集以填补学术基准数据集的不足之处，以此评估不同 ML 模型在时间演化的数据环境中的表现。结果表明，基于时间的数据划分与学术基准数据集中的随机划分会导致不同的方法排名，MLP 类的架构和 GBDT 模型在 TabReD 数据集上展现出最佳结果，而更复杂的深度学习模型还需进一步证明其有效性。

Jun, 2024

LakeBench：数据湖上的数据发现基准测试

在数据湖之中，企业内部需要智能地进行数据发现，特别是关于找到相关的数据表。该文提出了使用不同数据源的表格来开发多个用于这些任务的基准测试，并比较了 4 个公开可用的表格模型在这些任务上的表现，结果显示这些模型在数据发现任务上有很大的改进空间。建立这样的基准测试对于社区构建适用于数据湖中数据发现的表格模型可能是有用的。

Jul, 2023

为 BigBench 中的机器学习工作负载增加功能

在大数据和机器学习、深度学习以及人工智能算法得到越来越多支持的时代，急需标准化的应用基准来对这些新技术进行压力测试和评估。本文在基于标准化的 BigBench (TPCx-BB) 基准的基础上，通过引入三个新的工作负载和扩展机器学习算法的覆盖范围，丰富了改进版的 BigBench V2。我们的工作负载使用多种算法，并对同一算法在多个流行的库中（如 MLlib、SystemML、Scikit-learn 和 Pandas）的不同实现进行比较，展示了我们基准扩展的相关性和可用性。

Jun, 2024

DevBench：软件开发综合基准

最近的大型语言模型 (LLMs) 的进展显著增强了它们的编码能力。然而，现有的基准主要关注编程的简化或隔离方面，如单文件代码生成或存储库问题调试，无法全面衡量真实世界编程活动引发的各种挑战。为此，我们提出了 DevBench，这是一个全面的基准，评估 LLMs 在软件开发生命周期的各个阶段，包括软件设计、环境设置、实施、验收测试和单元测试。DevBench 涵盖了广泛的编程语言和领域，具备高质量的数据收集，并为每个任务设计和验证了仔细设计的指标。经验证实证研究表明，包括 GPT-4-Turbo 在内的当前 LLMs 未能解决 DevBench 中提出的挑战。分析显示，模型在理解存储库中的复杂结构、管理编译过程和掌握高级编程概念方面存在困难。我们的发现为未来 LLMs 的真实世界编程应用的发展提供了可行的洞察。我们的基准可以在此 https URL 获取。

Mar, 2024