Jul, 2020

深度可分离 LSTM 变形器

TL;DR本文提出使用深度可分长短时记忆网络 (depth-wise LSTM) 替代残差连接 (residual connection) 来解决深度 Transformer 模型面临的优化问题,采用深度 LSTM 可以更好地捕捉远距离依赖关系。实验结果表明,采用深度 LSTM 有效提高了模型的 BLEU 值,并且可以更加高效地应用于深度 Transformer 模型。同时,本文提出了一种方法来测度层非线性对模型性能的影响,并证实深度 LSTM 的使用优于残差连接。