BriefGPT.xyz
Sep, 2023
无监督序列模型中的世界模型中的线性表现
Emergent Linear Representations in World Models of Self-Supervised Sequence Models
HTML
PDF
Neel Nanda, Andrew Lee, Martin Wattenberg
TL;DR
序列模型对其决策过程是如何表示的?我们的研究表明,将模型的内部状态线性化表示为“我的颜色”与“对手的颜色”可以通过简单的向量运算来控制模型的行为,从而实现对内部表示的精确理解。线性表示为解决序列模型的解释性问题提供了重要进展,并通过进一步探索世界模型的计算过程来加以证明。
Abstract
How do
sequence models
represent their
decision-making process
? Prior work suggests that Othello-playing neural network learned nonlinear models of the board state (Li et al., 2023). In this work, we provide evid
→