EMNLPOct, 2023

推递层:在变形金刚语言模型中编码递归结构

TL;DR递归是人类语言的一项突出特征,由于缺乏明确的递归状态跟踪机制,对自我关注来说是一项根本性的挑战。本研究引入了推入式层,这是一种新的自我关注层,通过跟踪已观察前缀的增量解析中每个令牌的估计深度,模拟了递归状态。使用推入式层的 Transformer 语言模型在句法泛化方面表现更好,并具有 3-5 倍的样本高效性,同时保持类似的困惑度。