Aug, 2018
大规模语言建模:在四小时内收敛于 40GB 文本
Large Scale Language Modeling: Converging on 40GB of Text in Four Hours
Raul Puri, Robert Kirby, Nikolai Yakovenko, Bryan Catanzaro
TL;DR本研究开发出用于自然语言处理的基于 RNN 的 4096 维乘法 LSTM 模型,结合混合精度算法和大规模并行计算,使模型短短 4 小时内能在亚马逊评论数据集上通过三次训练实现无监督文本重构;同时,我们提供了一种学习率策略,使得该模型可以在 32k 批量大小的情况下收敛,这一结果对于商用应用和深度学习研究者来说具有重要意义。