Nov, 2022
凸化 Transformer:改进 Transformer 网络的优化和理解
Convexifying Transformers: Improving optimization and understanding of transformer networks
Tolga Ergen, Behnam Neyshabur, Harsh Mehta
TL;DR论文研究了 Transformer 网络模型训练的问题,并提出了一种新的凸分析方法来解决这个问题,进而提供了这些网络模型的理论解释以及性能优化方法。