May, 2024

语言模型需具备归纳偏见进行归纳计数

TL;DR通过对训练语言模型进行计数,我们发现传统的 RNN 在归纳计数方面的性能远远优于现代 RNN,并且 Transformers 在域外计数方面依赖于位置嵌入,这一发现呼吁学术界重新审视对形式特征的基本函数的应用范围。