Apr, 2024
基于 Transformer 的语言模型内部工作原理初探
A Primer on the Inner Workings of Transformer-based Language Models
Javier Ferrando, Gabriele Sarti, Arianna Bisazza, Marta R. Costa-jussà
TL;DR这篇论文提供了对 Transformer-based 语言模型内部工作进行解释的当前技术的简明技术介绍,重点讨论生成式只解码器架构。我们最后总结了这些模型实现的已知内部机制的综合概述,揭示了该领域中流行方法和活跃研究方向之间的联系。