Oct, 2023

变形金刚何时能够通过抽象符号进行推理?

TL;DR调查了 Transformer 大型语言模型在涉及抽象符号的关系推理任务中的能力。对于 (i) 回归任务,我们证明了 Transformer 在训练时具有泛化性,但需要大量的训练数据;对于具有符号标签的 (ii) 下一个令牌预测任务,我们展示了一种 “反比例尺律”:随着嵌入维度的增加,Transformer 无法泛化。针对 (i) 和 (ii) 这两种情况,我们提出了微妙的 Transformer 修改,通过每个头部添加两个可训练参数来减少所需的数据量。