DeepDB：从数据学习，而非查询！

Sep, 2019

DeepDB: Learn from Data, not from Queries!

Benjamin Hilprecht, Andreas Schmidt, Moritz Kulessa, Alejandro Molina, Kristian Kersting...

TL;DR本文提出以数据驱动的方法来替代常规的以工作负荷为驱动的方式，通过机器学习模型来捕捉行为，并展示数据驱动模型不仅可以提供更好的准确性，而且还能更好的适应未知查询。

Abstract

The typical approach for learned dbms components is to capture the behavior by running a representative set of queries and use the observations to train a machine learning model. This workload-driven approach, ho

dbms components machine learning model data-driven model query answering cardinality estimation

发现论文，激发创造

DsDm: 使用数据模型的模型感知数据集选择

利用优化问题的框架从候选数据中选择有机会最大化模型性能的子集，避免主观标准，并明确了学习过程如何利用训练数据进行目标任务的预测，从而极大地提高了语言模型的性能。

Jan, 2024

AskYourDB: 使用自然语言查询和可视化关系型数据库的端到端系统

使用自然语言处理和语义解析的方法，在数据库查询过程中引入智能化，以帮助商业用户能够直接查询数据库。同时增加了自动可视化框架使得产品可供商业使用。

Oct, 2022

LearnedWMP: 使用查询模板分布进行工作负载内存预测

在现代数据库管理系统中，工作内存常常是处理内存分析查询操作（如连接、排序和聚合）时的限制因素。本研究旨在预测工作负载的内存需求，并提出了学习的工作负载内存预测（LearnedWMP）方法，以改善和简化对工作负载的工作内存需求的估计。经过全面的实验评估，证明了 LearnedWMP 方法的优势以及对查询性能优化的广泛影响潜力。

Jan, 2024

构建数据驱动对话系统的可用语料库调查

通过调查可用于数据驱动型对话系统学习的公开数据集，讨论了这些数据集的重要特征，如何使用它们学习不同的对话策略以及它们的其他潜在用途。同时还研究了数据集之间的迁移学习方法和外部知识的应用，并讨论了适当的评估指标选择。

Dec, 2015

基于模型的设计的自动聚焦神谕

数据驱动设计正在广泛应用于蛋白质、小分子和材料工程等领域。然而，设计目标需要进入超出模型训练范围的设计空间，因此需要针对式样寻找新的候选设计。本文提出了一种自动对焦方法来调整回归模型，以适应训练范围之外的新式样，从而更好地实现数据驱动设计目标。

Jun, 2020

渐进降阶建模：以选择性知识传输强化数据驱动建模

通过减少数据需求并提高数据驱动模型的实际性，我们提出了一种渐进降阶建模框架，通过选择性地从之前的训练模型中转移有价值的知识，从而创建一个具有高准确性的代理模型。我们的研究通过缓解数据稀缺问题，解锁了数据驱动建模在实际工程应用方面的潜力，为各个领域的进步提供了强有力的支持。

Oct, 2023

研究提议：“高质量数据是否足够？

本文研究如何选择和创建高质量基准数据的子集以及对于模型的有效学习是否真正需要大型数据集，并计划研究数据修剪和数据创建范式以生成高质量数据。

Mar, 2022

我们准备好了吗？—— 学习基数估计

本研究旨在探讨学习模型在实际部署中替代基于传统方法的概数估计器的潜力。通过对四个实际数据集进行五种学习方法和八种传统方法的比较，结果显示学习模型更加准确但训练和推理成本较高。此外，我们探究了学习模型在动态环境下的表现和可能出现的问题，并提出了控制成本和提高可信度这两个有前途的研究方向以及其他研究机会。

Dec, 2020

从数据中学习主动学习

本文提出了一种新的基于数据驱动的主动学习方法，该方法将问题选择过程描述为回归问题以学习基于以前经验的策略，具有广泛的适用性。

Mar, 2017

Qd-tree: 为大数据分析学习数据布局

本文提出一种名为 “查询数据路由树” 的框架，通过贪心和深度强化学习算法的构建，可以优化分块技术，实现数据分配的优化，提高查询性能。实验结果表明，使用 qd-tree 可以大幅加速数据查询，并且提供完整的块语义描述。

Apr, 2020