Jun, 2019
多粒子动力系统视角下理解和改进 Transformer
Understanding and Improving Transformer From a Multi-Particle Dynamic System Point of View
Yiping Lu, Zhuohan Li, Di He, Zhiqing Sun, Bin Dong...
TL;DR本文提出将 Transformer 理解为数值常微分方程 (ODE) 求解器,通过这一框架给出了一种新的改进 Transformer 的方案 ——Macaron Net,经过实验证明其在监督和非监督学习任务中优于 Transformer。