Feb, 2024

语言模型表达自我和他人的信念

TL;DR通过神经激活语言模型,线性解码不同代理人的信念状态,发现其内部包含了自我和他人信念的表征,这些表征对社会推理过程具有关键作用,同时在不同因果推理模式的多种社会推理任务中表现出潜在的泛化能力。