Nov, 2023

通过分组相关数据对象和计算实现低延迟机器学习推断

TL;DR我们提出了一种新颖的相关性分组机制,使开发人员能够表达特定应用程序的数据访问相关性,以实现对托管流推断任务的服务器集群中的数据对象的协调管理,从而取得显著更低且更一致的延迟,提高节点利用率,并且只需要对应用程序的编码进行少量修改。