ACLMar, 2022

ODE Transformer: 序列生成的普通微分方程启发模型

TL;DR本文研究残差网络与解常微分方程的欧拉离散化之间的关系,并将欧拉离散化方法运用于 Transformer 中,提出一种新的 ODE Transformer 架构,实现简单高效,在机器翻译、摘要生成和语法错误修正等任务上具有较高的泛化能力和性能提升。