Sep, 2023

Drifter:大规模推荐系统中的高效在线特征监控以提高数据完整性

TL;DRDrifter 是一种高效、轻量级的在线特征监控和验证系统,通过提供敏捷、响应灵敏和适应性的数据质量监控,实时根本原因分析、漂移检测和有问题的生产事件的洞察,解决现有方法的局限。Drifter 集成了最先进的稀疏数据的在线特征排序和异常检测思想,具有高可扩展性和资源效率,在每分钟处理数百万个实例的生产部署中,只需要两个线程和不到 1 GB 的 RAM。对真实数据集的评估证明,Drifter 在警报和缓解数据质量问题方面具有有效性,显著提高了实时推荐系统的可靠性和性能。