Oct, 2020

使用缓存的混合精度嵌入

TL;DR该研究介绍了一种新的嵌入式表(embedding table)缓存内存架构及其优化,该架构主要针对推荐系统中的大规模模型训练,通过低精度训练大部分嵌入式表行数据,实现与标准训练精度下相同准确率的情况下,INT8 位精度嵌入式表与缓存大小仅为嵌入式表大小的 5%,最终实现达到 3 倍的减存储效果,并在 GPU 与主机间的数据传输方面达到了 16% 的训练加速。