Apr, 2025
超越下一个标记预测:变压器是上下文敏感的语言生成器
Moving Beyond Next-Token Prediction: Transformers are Context-Sensitive
Language Generators
TL;DR本研究解决了对大型语言模型(LLMs)机制理解不足的问题,提出了一种将LLMs解释为概率左上下文敏感语言生成器的新框架。通过对变压器进行上下文窗口、注意机制和自回归生成框架的分解,研究表明变压器可以动态逼近环境敏感的生成规则,揭示其生成类人智能输出的本质,从而弥合了形式语言理论与变压器生成能力之间的鸿沟。