Apr, 2023

VeML:大规模高维数据的端到端机器学习生命周期

TL;DR本文介绍了一个专门针对端到端机器学习生命周期的版本管理系统VeML,其中通过核心集算法来解决大规模高维度数据的生命周期构建高成本的问题,同时也能检测训练数据和测试数据之间的不匹配导致的模型准确度下降,而无需使用标记数据来重新构建生命周期。作者在真实的大规模数据集上进行了实验并显示了良好的结果。