Dec, 2021

HET: 利用缓存启用的分布式框架扩展大型嵌入式模型训练

TL;DR该研究提出了一种名为 HET 的系统框架,旨在解决嵌入式模型大规模训练的可伸缩性问题,通过使用嵌入式缓存和新的一致性模型,可以实现具有细粒度一致性保证的高效通信,相较于现有技术,HET 能够减少高达 88% 的嵌入式通信,并实现高达 20.68 倍的性能加速。