关于仅解码变压器语言模型计算能力的研究

May, 2023

On the Computational Power of Decoder-Only Transformer Language Models

Jesse Roberts

TL;DR本文从理论上评估解码器型Transformer模型的计算普适性，证明单层单注意头的解码器型Transformer架构在合理假定下是图灵完备的，同时揭示词嵌入的稀疏性/可压缩性是图灵完备性持有的必要条件。

Abstract

This article presents a theoretical evaluation of the computational universality of decoder-only transformer models. We extend the theoret