Oct, 2023

从人类行为角度探索语言模型

TL;DR基于人类行为学视角,我们探究了大型语言模型(LLMs)的预测过程和内部机制,通过将LLMs的值与眼动测量结果相关联,发现LLMs表现出与基于RNN的语言模型不同的预测模式。此外,随着前馈网络(FFN layers)的升级,记忆和语言知识编码的能力也逐渐提升直至达到巅峰,并转向注重理解能力。自注意力机制的功能分布在多个头部。最后,我们审查了门控机制,发现它们控制信息的流动,有些门控机制促进信息的传递,而其他门控机制则消除信息。