Nov, 2022

Transformer 模型中的简洁性偏好及其学习稀疏布尔函数能力

TL;DR本文对 Transformers 和 recurrent models 的归纳偏差进行大量实证研究,发现 Transformers 在形式语言的建模上相对较弱,但其在归纳偏差方面与 recurrent models 存在差异,可解释其在泛化性能方面表现优异。