Lero: 一种学习排序查询优化器

Feb, 2023

Lero: A Learning-to-Rank Query Optimizer

Rong Zhu, Wei Chen, Bolin Ding, Xingguang Chen, Andreas Pfadler...

TL;DR本文介绍了 Lero，一种基于传统查询优化器的学习排序查询优化器，该优化器利用数据库的先验知识和机器学习技术，通过比较执行计划的相对优劣来实现查询优化，显著提高了性能，并可用于现有的数据库管理系统中。

Abstract

A recent line of works apply machine learning techniques to assist or rebuild cost based query optimizers in DBMS. While exhibiting superiority in some benchmarks, their deficiencies, e.g., unstable performance, high training cost, and slow model updating, stem from the inherent hardne

发现论文，激发创造

Kepler: 快速参数查询优化的稳健学习

Kepler是一种基于端到端学习的参数化查询优化方法，采用行数演化算法和神经网络不确定性模型，以实际执行数据评估候选方案并预测最快速的查询计划, 从而显著提高PostgreSQL上多个数据集的查询运行时间。

Jun, 2023

JoinBoost: 仅使用 SQL 在规范化数据上增长树

JoinBoost是一个Python库，它将对于标准数据（normalized databases）的树模型训练算法重写为纯SQL，从而能够提供与专用ML库相竞争的性能，并与底层DBMS功能扩展。

Jul, 2023

基于机器学习的索引调优：最近进展与开放挑战概述

在自动索引调优中，机器学习技术为缓解相关挑战提供了新的机会，涉及工作负载选择、候选索引筛选、加速索引配置搜索、减少查询优化器调用和降低性能回归可能性等方面。此外，我们还提出了一个跨平台设计，旨在在多个SQL-like系统中实现索引调优的民主化。

Aug, 2023

FOSS: 查询优化器的自学医生

本研究介绍了一种基于深度强化学习的查询优化框架 FOSS，通过在传统优化器生成的原始计划基础上逐步优化子节点，采用模拟环境进行学习和改进，通过实验证明 FOSS 在延迟性能和优化时间方面优于现有方法，相比 PostgreSQL，在不同基准测试中实现了15％到83％的延迟节约。

Dec, 2023

LearnedWMP: 使用查询模板分布进行工作负载内存预测

在现代数据库管理系统中，工作内存常常是处理内存分析查询操作（如连接、排序和聚合）时的限制因素。本研究旨在预测工作负载的内存需求，并提出了学习的工作负载内存预测（LearnedWMP）方法，以改善和简化对工作负载的工作内存需求的估计。经过全面的实验评估，证明了LearnedWMP方法的优势以及对查询性能优化的广泛影响潜力。

Jan, 2024

Roq: 基于风险感知学习成本模型的稳健查询优化

在本篇论文中，我们提出了基于风险感知学习方法的全面框架Robust Optimization of Queries（Roq），它通过一种新颖的鲁棒性概念的形式化和定量测量，实现了鲁棒查询优化。Roq还包括查询计划评估和选择的新策略、算法以及预测查询执行成本和相关风险的新型学习成本模型。我们通过实验证明，与现有技术相比，Roq显著提高了鲁棒查询优化的效果。

Jan, 2024

LLM 强化策略多模态查询优化器（版本 1）

本文研究了大型语言模型（LLM）在查询优化方面的能力，并使用LLM设计了LaPuda，一种新颖的基于LLM和策略的多模态查询优化器，通过几个抽象策略指导LLM进行优化，从而节省了大量时间和人力资源。此外，为了避免LLM产生错误的优化，我们借鉴了梯度下降的思想，提出了一种引导成本下降（GCD）算法来执行优化，从而保持优化在正确的方向上。通过评估，我们的方法在大多数情况下都优于基准方法，例如，我们的方法生成的优化计划的执行速度比基准方法快1~3倍。

Mar, 2024

Hydro：机器学习查询的自适应查询处理

在本研究中，我们介绍了Hydro，它是一种以自适应查询处理（AQP）为特点的面向机器学习查询的数据库管理系统（DBMS），通过确保最佳谓词评估顺序和提高UDF执行的可伸缩性，能够快速评估基于UDF的查询谓词。通过集成AQP，Hydro不断监视UDF统计信息，以最佳顺序将数据路由到谓词，并动态分配资源来评估谓词。通过四个实例用例的演示，我们展示了Hydro相对于基准系统的高效性，提供了高达11.52倍的加速。

Mar, 2024

预算感知查询调优：一种AutoML视角

通过将代价单元视为变量，本文挑战了传统的代价模型观点，并提出了查询优化和工作负载调优的解决方案，实验证明了该方法的有效性。

Mar, 2024

一次性读入（YORO）：学习将数据库知识内化用于文本到SQL

本研究解决了现有文本到SQL任务中重复编码数据库模式所导致的高推理成本和重要数据库知识被忽视的问题。YORO提出了一种新范式，通过在训练过程中将数据库知识直接内化到文本到SQL模型的参数知识中，消除了推理过程中的模式编码需求，显著降低输入标记长度，并在大型数据库上表现出色。

Sep, 2024