Sep, 2024
自回归 + 思维链 = 循环:循环在语言模型可计算性中的作用与重访循环变换器
Autoregressive + Chain of Thought = Recurrent: Recurrence's Role in
Language Models' Computability and a Revisit of Recurrent Transformer
TL;DR本研究解决了Transformer模型在计算能力上的局限性,特别是在处理复杂任务(如计数、字符串反转和乘法)时的不足。通过探讨自回归与循环结构的关系,论文提出了思维链方法作为一种近似循环计算的方式,从而显著提升模型性能和计算能力。同时,重新审视了基于循环的Transformer模型设计及其理论局限性。