Jun, 2023

transformers 逐渐提高排名学习

TL;DR本文从简化的前提条件出发,理论证明了在 transformer 中,训练后的权重与初始权重之间的差异会在数量上逐渐增加。实验证明这种现象确实存在。