Twitter SQL 查询成本预测

Apr, 2022

Forecasting SQL Query Cost at Twitter

Chunxu Tang, Beinan Wang, Zhenxiao Luo, Huijun Wu, Shajan Dasan...

TL;DR本文介绍了一种使用机器学习技术来预测 SQL 查询资源使用的服务，并且可以帮助改善查询调度，解决 SQL 引擎集群中不平衡的 OLAP 工作负载问题。

Abstract

With the advent of the big data era, it is usually computationally expensive to calculate the resource usages of a sql query with traditional DBMS approaches. Can we estimate the cost of each query more efficient

big data sql query machine learning resource usage olap

发现论文，激发创造

云计算中的不确定性意识工作负载预测

本文使用贝叶斯深度学习模型预测未来云计算资源需求的分布和不确定性，并通过多组数据集进行不同的预训练和微调，比较单变量和双变量模型的精确度和对 QoS 的影响，并检验了模型的迁移学习能力和在真实环境中的可部署性。

Feb, 2023

SQL2Circuits: 用量子自然语言处理方法估计 SQL 查询的指标

本研究提出了一种基于量子自然语言处理 (QNLP) 的方法，用于构建量子机器学习模型，该模型可以将 SQL 查询按照执行时间和基数进行分类。该模型与现有的 QNLP 模型在分类任务中具有类似的准确性，实验结果表明，QNLP 模型可以成功应用于不属于 QNLP 领域的问题。本文还分析了该量子机器学习模型的表达能力和纠缠能力直方图，结果表明其具有适宜的表达能力和纠缠能力，足以在量子硬件上执行。

Jun, 2023

大数据时代的快速数据：Twitter 实时关联查询建议架构

本文介绍了 Twitter 实时相关查询建议和拼写更正服务的架构，讨论了如何在面对‘大数据’ 事件的高实时需求时通过从 Hadoop-based 分析栈向专为任务设计的自定义内存处理引擎的转变解决相关问题。

Oct, 2012

LearnedWMP: 使用查询模板分布进行工作负载内存预测

在现代数据库管理系统中，工作内存常常是处理内存分析查询操作（如连接、排序和聚合）时的限制因素。本研究旨在预测工作负载的内存需求，并提出了学习的工作负载内存预测（LearnedWMP）方法，以改善和简化对工作负载的工作内存需求的估计。经过全面的实验评估，证明了 LearnedWMP 方法的优势以及对查询性能优化的广泛影响潜力。

Jan, 2024

预算感知查询调优：一种 AutoML 视角

通过将代价单元视为变量，本文挑战了传统的代价模型观点，并提出了查询优化和工作负载调优的解决方案，实验证明了该方法的有效性。

Mar, 2024

张量计算运行时的查询处理

通过 Tensor Query Processor 实现 SQL 查询到张量程序的转换，并在 Tensor Computation Runtimes 上执行，能够加快查询执行时间并支持混合 ML 预测和 SQL 的查询。

Mar, 2022

MLaaS 范式中的模型提取警告

该研究提出了一种基于云的提取监视器，通过观察单个和串通的对手用户的查询和响应流来量化模型的提取状态，从而使用信息增益来测量具有不断增加查询数量的用户的模型学习速率，并维护智能查询摘要以在串通存在的情况下测量与输入特征空间覆盖度相关的学习速率，以提醒模型所有者可能存在侵犯攻击。

Nov, 2017

基于端到端学习的成本估算器

通过提出一种基于树状结构的模型的有效端到端学习成本和基数估计框架，该模型可以同时估计成本和基数，从而解决了传统经验成本和基数估计技术的不足，同时考虑了查询和物理操作的特征提取，提出了一种有效的方法来编码字符串值，并对现有基于学习的方法进行了改进，实验结果表明我们的方法优于基线。

Jun, 2019

Sibyl: 预测时间演化的查询工作负载

数据库系统通常依赖于历史查询跟踪来进行基于工作负载的性能调优，然而实际生产工作负载是时变的，因此历史查询对于优化未来工作负载无效。为应对这一挑战，我们提出了 SIBYL，一个端到端机器学习框架，准确地预测未来查询序列，并能在各种预测窗口中提供完整的查询语句。通过从真实工作负载中获取的见解，我们提出了基于模板的特征化技术，并开发了采用编码 - 解码结构的堆叠 LSTM 用于准确预测查询工作负载。我们还开发了改进在大预测窗口下的预测准确性，并能在具有查询到达率高度变化的大工作负载上实现高扩展性的技术。最后，我们提出了处理工作负载漂移的技术。我们对四个真实工作负载进行评估，结果表明 SIBYL 可以以 87.3% 中位数 F1 分数预测工作负载，并在应用于物化视图选择和索引选择应用程序时分别实现了 1.7 倍和 1.3 倍的性能改进。

Jan, 2024

机器学习技术预测视频流量以降低云服务成本

提出算法对云存储仓库中不同视频流的受欢迎程度进行预测，根据预测结果决定是否从云存储中删除某些视频以降低存储成本，结果表明与保存所有视频流相比，云服务的成本降低了 15%。

Oct, 2022