Feb, 2024

Transformer 架构的限制

TL;DR大型语言模型中幻觉的根本原因是通信复杂性,我们通过示例证明了 Transformer 层在函数的定义域足够大时无法进行函数组合(例如在家族谱中确定一个人的祖父),对于足够小的定义域,这种无能已经在实证上存在。我们还指出,对于足够大的实例并且在计算复杂性领域的某些公认猜想成立的前提下,一些被认为对 LLM 来说很难的核心组成任务很可能无法通过 Transformer 来解决。