ICLRApr, 2018

稀疏持续 RNN:在芯片上压缩大规模循环神经网络

TL;DR通过模型修剪和 GPU 优化,我们为稀疏 RNN 设计了一种高效的实现,包括 Lamport 时间戳、宽存储器负载和银行感知权重布局等优化措施,使得在隐藏层大小为 2304,批处理大小为 4,密度为 30% 时,我们的技术可实现超过 6 倍的加速效果,进一步,我们的技术使得大于 5 倍的模型大小可以适应于 GPU 以达到 2 倍的加速效果,最后我们在附录中进行了机器翻译和语音识别任务的案例研究,将循环层加速了最多 3 倍。