MMJul, 2016

深度声学模型的高效表示与执行

TL;DR本文提出了一种简单而高效的量化方案,将神经网络的参数分辨率从 32 位浮点值减少到 8 位整数值,从而产生了显著的内存节省和可以使用优化后的硬件指令进行整数算术操作,从而显着降低了推理成本,并通过提出的 “量化感知” 训练过程进行网络训练,发现可以恢复大部分量化引入的精度损失,并验证了该技术在一个开放式大词汇语音识别任务上的应用。