Mar, 2024

国际象棋对弈语言模型中的紧急世界模型与潜变量估计

TL;DR迄今为止,语言模型的出色表现引发了对其性能来源的争议,是仅仅学习句法模式和表面统计的结果,还是从文本中提取了语义和世界模型?本研究在国际象棋这一更复杂的领域中扩展了之前的工作,通过在真实比赛中进行训练并使用线性探测和对比激活来研究模型的内部表示,发现该模型具有棋盘状态的内部表示,同时对玩家技能等潜在变量进行估计,提升了模型的胜率达到 2.6 倍。