ICLRJul, 2018

通用变压器

TL;DRUniversal Transformer 是一种并行自我关注循环序列模型,它将前馈序列模型(例如 Transformer)的并行性和全局感受野与递归的归纳偏差相结合,解决了在某些简单任务中标准 Transformer 失败的问题,并取得诸多算法和语言理解任务上优越的表现。