Apr, 2024

基于 Transformer 的语言模型内部工作原理初探

TL;DR这篇论文提供了对 Transformer-based 语言模型内部工作进行解释的当前技术的简明技术介绍,重点讨论生成式只解码器架构。我们最后总结了这些模型实现的已知内部机制的综合概述,揭示了该领域中流行方法和活跃研究方向之间的联系。