Apr, 2019

基于 Transformer 的语言模型

TL;DR本篇论文针对 Transformer 架构不足以高效融合语言建模所需的单词级序列上下文,提出了在保持计算效率的同时通过添加额外的 LSTM 层能够更好地捕捉顺序上下文的有效 Transformer 架构,其中 Coordinate Architecture Search(CAS)通过迭代模型的精炼来找到一个有效的架构,实验结果表明 CAS 在所有问题上的 perplexities 达到了 20.42 ~ 34.11,即比最先进的 LSTM 提高了 12.0 perplexity 单位。