May, 2023

语言模型的物理学:第 1 部分,无上下文语法

TL;DR本研究设计实验以探究生成式语言模型如何学习上下文无关文法,并发现了 Transformer 如何利用物理机制隐式地编码文法结构、形成类动态规划的 attention,并在处理语法错误时表现出的鲁棒性方面的相关拓展。