Sep, 2024

来自fMRI的证据支持语言模型中的两阶段抽象过程

TL;DR本研究解决了大型语言模型(LLM)中隐层如何能够有效预测大脑对自然语言刺激反应的核心问题。通过使用流形学习方法,研究发现LLM训练过程中存在一个两阶段的抽象过程,其中第一个“组合”阶段的抽象逐渐压缩到更少的层。研究初步证实,层级编码性能与LLM表示的内在维度之间存在强对应关系,这并非源于其下一个单词预测特性。