Jun, 2023

面向极大输出空间的记忆高效训练 —— 在单一通用 GPU 上使用 50 万标签进行学习

TL;DR在大规模输出空间分类问题中,通过使用中间大小的倒数第二层和限制稀疏层的连通性为均匀,可有效降低 GPU 硬件上的内存需求,并缓解由稀疏层连通性引起的模型预测力度下降问题。