Jul, 2023

LakeBench:数据湖上的数据发现基准测试

TL;DR在数据湖之中,企业内部需要智能地进行数据发现,特别是关于找到相关的数据表。该文提出了使用不同数据源的表格来开发多个用于这些任务的基准测试,并比较了 4 个公开可用的表格模型在这些任务上的表现,结果显示这些模型在数据发现任务上有很大的改进空间。建立这样的基准测试对于社区构建适用于数据湖中数据发现的表格模型可能是有用的。