Apr, 2021
Transformer 的简单有效位置编码
Demystifying the Better Performance of Position Encoding Variants for
Transformer
TL;DR本文介绍了一种新的机制——Decoupled Positional Attention,将位置和段信息编码为Transformer模型,提高了训练和推理效率,在GLUE、XTREME和WMT基准测试中实现了竞争性表现,并进一步将该方法推广到远程的transformers,显示了性能提升。