Nov, 2022

凸化 Transformer:改进 Transformer 网络的优化和理解

TL;DR论文研究了 Transformer 网络模型训练的问题,并提出了一种新的凸分析方法来解决这个问题,进而提供了这些网络模型的理论解释以及性能优化方法。