BriefGPT.xyz
Ask
alpha
关键词
propositional probes
搜索结果 - 1
使用命题探测在语言模型中监测潜在世界状态
语言模型在其输入语境中容易受到偏见、阿谀奉承、后门等倾向的影响,解释语言模型的内部状态可以帮助监控和纠正不忠实的行为。本研究假设语言模型在一个潜在的世界模型中表示其输入语境,并通过 “命题探测器” 提取这个潜在的世界状态。
PDF
14 days ago
Prev
Next