Nov, 2023

一个研究合成的、可解释任务中 Transformer 能达到的能力水平

TL;DR通过对一系列广泛而系统的实验,本文展示了:(1)自回归 Transformer 模型可以学习训练数据中的组合结构,并能够推广到指数甚至组合数量的函数;(2)通过生成中间输出来组合函数比不生成中间输出更有效地推广到未见过的组合;(3)训练数据对模型组合未见过的函数的能力有显著影响;(4)模型后半部分的注意力层对于组合性至关重要。