JoinBoost: 仅使用 SQL 在规范化数据上增长树
本文讨论了学习索引在DBMS索引中的应用,并介绍了一种新的学习索引ALEX,其结合了学习索引的核心思想和成熟的存储和索引技术,可在动态更新的数据库工作负载中实现高性能和低内存占用。
May, 2019
引入一种新的n-way equi-join处理方法——GJ,大大提高了join算法的性能,解决了资源、时间等限制下现有方法难以应对的问题。
Jun, 2022
在数据湖管理中,使用Deepjoin进行精确和高效的可连接表发现,它是一种基于深度学习模型的嵌入式检索解决方案,可服务于等价连接和语义连接,训练数据和数据增强技术的设计有助于其在大数据集上泛化,其精度甚至优于专家标记的语义连接的精确解,并配备GPU时速度可提高两个数量级。
Dec, 2022
本文介绍了 Lero,一种基于传统查询优化器的学习排序查询优化器,该优化器利用数据库的先验知识和机器学习技术,通过比较执行计划的相对优劣来实现查询优化,显著提高了性能,并可用于现有的数据库管理系统中。
Feb, 2023
该研究探讨了数据库对齐问题和插入匹配问题之间的关系,并研究了具有多元高斯特征的数据库对齐问题。结果显示,针对数据库对齐的最大似然算法和插入匹配的最大似然算法存在形式一致的线性规划形式,并通过放宽约束条件来获得不同算法的性能界限。
Jul, 2023
在这篇论文中,我们介绍了一种高效轻量级的强化学习查询优化环境 JoinGym,该环境可用于测试强化学习算法在关于查询的组合优化问题中的泛化能力,并且我们提供了在实际数据管理问题上测试方法的离线跟踪,同时提供了从IMDB数据集生成的3300个SQL查询的所有可能的连接跟踪。
Jul, 2023
通过引入ML Benchmark For Relational Databases (RDBench)标准化基准测试,旨在促进多表关系数据库上可复现的机器学习研究,RDBench为不同的机器学习领域提供多样的关系数据库数据集,使得从XGBoost到图神经网络等不同领域的ML方法可以进行有意义的比较和评估。
Oct, 2023
数据湖中的数据发现在表增强中的应用进行了深入分析,研究了检索可连接表、信息合并和使用生成表进行预测的替代方法,并通过对YADL和Open Data US的系统性探索,总结了准确检索连接候选项的重要性和简单合并方法的效率。本研究报道了现有解决方案的优势和局限性,旨在指导未来该领域的研究。
Feb, 2024
使用LEADS技术,通过SQL查询定制模型,提高关系数据库上的预测建模能力和推断效率,并通过INDICES系统实现高效的结构化数据分析。
May, 2024