Nov, 2022

利用树状投影表征 Transformer 中的固有组合性

TL;DR研究表明,当进行语言数据训练时,transformers 是学习一种简单的基于树状结构的计算过程,可以解释像人类语言这样的复合意义系统,这种过程没有必要使用其完整架构的全部容量。通过无监督和无参数的方法,可以在任何 transformer 和树状结构之间建立功能投影,而三项不同的任务实验表明,在一些情况下,可无监督地恢复相同的树状结构,这些树状结构有助于模型的行为改进。