深度无监督基数估计

May, 2019

Deep Unsupervised Cardinality Estimation

Zongheng Yang, Eric Liang, Amog Kamsetty, Chenggang Wu, Yan Duan...

TL;DR使用自动回归模型进行基数估计，提出了一种可处理多维关系表密集统计的新方法。通过蒙特卡罗积分方案，无需独立性假设，即可近似联合数据分布，实现单位误差计算效率，可显著提高准确性和系统运行效率。

Abstract

cardinality estimation has long been grounded in statistical tools for density estimation. To capture the rich multivariate distributions of relational tables, we propose the use of a new type of high-capacity statistical model: →

cardinality estimation deep autoregressive models monte carlo integration range queries data distribution

发现论文，激发创造

NeuroCard: 对所有表格的基数估计

本文介绍了一种名为 NeuroCard 的查询优化器，它利用了神经网络技术，结合了 join 采样和深度自回归模型，能够精确地预测复杂查询的关系及数量。该方法实现了比现有方法更高的精确度，而且具有较小的存储空间和高效的构建时间。

Jun, 2020

自回归范围密度估计的变量跳过

本文提出一种名为 Variable Skipping 的技术，用于加速基于深度自回归模型的范围密度估计，该技术利用范围密度查询的稀疏结构，在近似推理期间避免采样不必要的变量。通过这种技术，可以在不改变通常的最大似然目标的情况下实现复杂应用，如文本模式匹配，并提供 10-100 倍的效率提升。同时，我们还展示了数据增强的简单策略来实现 Variable Skipping。

Jul, 2020

Duet: 高效且可扩展的混合神经关联理解

我们提出了一种名为 Duet 的新型混合确定建模方法，用于基数估计问题，与之前的方法相比，具有更好的效率和可扩展性。Duet 允许以可微分的形式直接估计范围查询的基数，时间和内存成本大大降低。通过将模型估计错误较大的查询纳入训练过程中，我们可以解决高维表上模型估计误差的长尾分布问题。我们对经典数据集和基准进行了 Duet 的评估，结果证明了 Duet 的有效性。

Jul, 2023

基于端到端学习的成本估算器

通过提出一种基于树状结构的模型的有效端到端学习成本和基数估计框架，该模型可以同时估计成本和基数，从而解决了传统经验成本和基数估计技术的不足，同时考虑了查询和物理操作的特征提取，提出了一种有效的方法来编码字符串值，并对现有基于学习的方法进行了改进，实验结果表明我们的方法优于基线。

Jun, 2019

我们准备好了吗？—— 学习基数估计

本研究旨在探讨学习模型在实际部署中替代基于传统方法的概数估计器的潜力。通过对四个实际数据集进行五种学习方法和八种传统方法的比较，结果显示学习模型更加准确但训练和推理成本较高。此外，我们探究了学习模型在动态环境下的表现和可能出现的问题，并提出了控制成本和提高可信度这两个有前途的研究方向以及其他研究机会。

Dec, 2020

递归基数模型的快速准确推理

提出一种算法，可用于计算概率的边际化和抽取精确联合样本，它运行的时间为 O（Dlog2 D），并将其作为低阶树结构模型内的有效信念传播，用于更一般的模型 Recursive Cardinality models，探索了它们的表现力并证明了它们的效用。

Oct, 2012

学习基数：利用深度学习估计相关连接

本文提出了一种基于 MSCN 深度学习模型的基数估计方法，该模型结合了集合语义用于捕获查询特征和真实基数，在解决采样估计的弱点和捕获跨表连接相关性方面表现出色，并在真实数据集上评估证明深度学习技术可以显著提高基数估计的质量。

Sep, 2018

变换自回归网络

本文旨在系统地表征密度估计方法，提出多种新方法，在真实数据和合成数据上进行全面研究，结果表明变量转换和自回归条件模型相结合可以显著提高性能，并将模型用于异常检测和图像建模，最后介绍了一种用于学习分布族的新的数据驱动框架。

Jan, 2018

PRICE：一种用于跨数据库基数估计的预训练模型

通过使用 PRICE 模型，使用低级别但可传输的数据分布和查询信息特征以及自注意力模型，可以准确计算任何数据库中的基数估计，而准备成本仅为基于基本一维直方图的方法。此外，价格可以在任何具体数据库上进行微调，进一步提高性能。

Jun, 2024

密度回归：高效且距离感知的深度回归器用于分布偏移下的不确定性估计

通过在测试时间中进行多次前向传递使用不同模型的现代深度集成技术，在不确定性估计方面取得了强大的性能，但代价是高存储空间和较慢的速度。为了解决这个问题，我们提出了一种名为 Density-Regression 的方法，它利用密度函数在不确定性估计中实现了快速推理，并且只需进行一次前向传递。我们证明它在特征空间上与距离相关，这是神经网络在分布转变下产生高质量不确定性估计的必要条件。经验上，我们对立方体玩具数据集、基准 UCI、时间序列天气预测和实际应用中的深度估计进行实验证明，Density-Regression 在分布转变下具有与现代深度回归器相当的不确定性估计性能，同时使用更小的模型尺寸和更快的推理速度。

Mar, 2024