ICLROct, 2022

应用序列模型探讨在合成任务训练下的紧急世界表达

TL;DR该研究探讨了语言模型的内部表示和超出表面统计信息的能力,并使用 Othello 棋盘游戏作为示例,发现神经网络对于棋盘状态具有一种非线性内部表示,可以用于解释和控制其输出。