Oct, 2022
基于结构化任务训练的 Transformer 模型的系统泛化和涌现结构
Systematic Generalization and Emergent Structures in Transformers Trained on Structured Tasks
Yuxuan Li, James L. McClelland
TL;DR该文探讨了怎样使用 Transformer 网络在算法任务中表现良好,展示了多层 transformer 网络在任务分解中的可靠性解决方案,以及所有相关任务中的共享计算的利用。