Jun, 2024

使用命题探测在语言模型中监测潜在世界状态

TL;DR语言模型在其输入语境中容易受到偏见、阿谀奉承、后门等倾向的影响,解释语言模型的内部状态可以帮助监控和纠正不忠实的行为。本研究假设语言模型在一个潜在的世界模型中表示其输入语境,并通过 “命题探测器” 提取这个潜在的世界状态。