Jun, 2019

多粒子动力系统视角下理解和改进 Transformer

TL;DR本文提出将 Transformer 理解为数值常微分方程 (ODE) 求解器,通过这一框架给出了一种新的改进 Transformer 的方案 ——Macaron Net,经过实验证明其在监督和非监督学习任务中优于 Transformer。