Jun, 2024

从局部到全局:学习 Transformer 的动力学和初始化效果

TL;DR本文研究了基于变压器的模型在使用马尔科夫输入过程研究的背景下,关于学习马尔科夫链的变压器的学习动态的问题,并通过理论和实证研究提供了初始化变压器参数的准则和其有效性的验证。