Jan, 2025

列表排序变换器中的结构发展

TL;DR本研究探讨了一层仅采用自注意机制的变换器在学习排序数值列表的过程中如何发展出相关结构。研究发现,模型在训练结束时会通过词汇拆分和副本抑制两种主要模式组织其注意力头,这表明神经网络自然倾向于采用更简单的解决方案。