深度无监督基数估计
本文介绍了一种名为 NeuroCard 的查询优化器,它利用了神经网络技术,结合了 join 采样和深度自回归模型,能够精确地预测复杂查询的关系及数量。该方法实现了比现有方法更高的精确度,而且具有较小的存储空间和高效的构建时间。
Jun, 2020
本文提出一种名为 Variable Skipping 的技术,用于加速基于深度自回归模型的范围密度估计,该技术利用范围密度查询的稀疏结构,在近似推理期间避免采样不必要的变量。通过这种技术,可以在不改变通常的最大似然目标的情况下实现复杂应用,如文本模式匹配,并提供 10-100 倍的效率提升。同时,我们还展示了数据增强的简单策略来实现 Variable Skipping。
Jul, 2020
我们提出了一种名为 Duet 的新型混合确定建模方法,用于基数估计问题,与之前的方法相比,具有更好的效率和可扩展性。Duet 允许以可微分的形式直接估计范围查询的基数,时间和内存成本大大降低。通过将模型估计错误较大的查询纳入训练过程中,我们可以解决高维表上模型估计误差的长尾分布问题。我们对经典数据集和基准进行了 Duet 的评估,结果证明了 Duet 的有效性。
Jul, 2023
通过提出一种基于树状结构的模型的有效端到端学习成本和基数估计框架,该模型可以同时估计成本和基数,从而解决了传统经验成本和基数估计技术的不足,同时考虑了查询和物理操作的特征提取,提出了一种有效的方法来编码字符串值,并对现有基于学习的方法进行了改进,实验结果表明我们的方法优于基线。
Jun, 2019
本研究旨在探讨学习模型在实际部署中替代基于传统方法的概数估计器的潜力。通过对四个实际数据集进行五种学习方法和八种传统方法的比较,结果显示学习模型更加准确但训练和推理成本较高。此外,我们探究了学习模型在动态环境下的表现和可能出现的问题,并提出了控制成本和提高可信度这两个有前途的研究方向以及其他研究机会。
Dec, 2020
提出一种算法,可用于计算概率的边际化和抽取精确联合样本,它运行的时间为 O(Dlog2 D),并将其作为低阶树结构模型内的有效信念传播,用于更一般的模型 Recursive Cardinality models,探索了它们的表现力并证明了它们的效用。
Oct, 2012
本文提出了一种基于 MSCN 深度学习模型的基数估计方法,该模型结合了集合语义用于捕获查询特征和真实基数,在解决采样估计的弱点和捕获跨表连接相关性方面表现出色,并在真实数据集上评估证明深度学习技术可以显著提高基数估计的质量。
Sep, 2018
本文旨在系统地表征密度估计方法,提出多种新方法,在真实数据和合成数据上进行全面研究,结果表明变量转换和自回归条件模型相结合可以显著提高性能,并将模型用于异常检测和图像建模,最后介绍了一种用于学习分布族的新的数据驱动框架。
Jan, 2018
通过使用 PRICE 模型,使用低级别但可传输的数据分布和查询信息特征以及自注意力模型,可以准确计算任何数据库中的基数估计,而准备成本仅为基于基本一维直方图的方法。此外,价格可以在任何具体数据库上进行微调,进一步提高性能。
Jun, 2024
通过在测试时间中进行多次前向传递使用不同模型的现代深度集成技术,在不确定性估计方面取得了强大的性能,但代价是高存储空间和较慢的速度。为了解决这个问题,我们提出了一种名为 Density-Regression 的方法,它利用密度函数在不确定性估计中实现了快速推理,并且只需进行一次前向传递。我们证明它在特征空间上与距离相关,这是神经网络在分布转变下产生高质量不确定性估计的必要条件。经验上,我们对立方体玩具数据集、基准 UCI、时间序列天气预测和实际应用中的深度估计进行实验证明,Density-Regression 在分布转变下具有与现代深度回归器相当的不确定性估计性能,同时使用更小的模型尺寸和更快的推理速度。
Mar, 2024