Jul, 2024

变压器在马尔可夫数据上的应用:固定深度足够

TL;DR本研究解决了变压器在\kth马尔可夫过程数据建模中的表现差异问题。通过实验证明,固定深度和每层一个头的变压器在长时间训练后能有效减少测试误差,且能够学习上下文条件的经验分布。理论上,单头三层的变压器可以表征\kth马尔可夫源的上下文条件经验分布,揭示了变压器捕捉上下文的机制。