Mar, 2020

使用连续动态模型为 Transformer 学习位置编码

TL;DR提出了一种新的位置信息编码方法,使用神经常微分方法对非循环模型(如 Transformer)进行编码,并证明在翻译和理解任务中,该编码方法与已有编码方法相比具有更好的性能。