Apr, 2021

Transformer 的简单有效位置编码

TL;DR本文介绍了一种新的机制——Decoupled Positional Attention,将位置和段信息编码为Transformer模型,提高了训练和推理效率,在GLUE、XTREME和WMT基准测试中实现了竞争性表现,并进一步将该方法推广到远程的transformers,显示了性能提升。