Dec, 2023

安卓是否知道自己只是梦见了电子羊?

TL;DR我们设计了在转换器语言模型的内部表示上训练的探针,这些探针能够预测其在上下文生成任务中产生的臆想行为。通过创建一个有机和合成臆想的跨任务的跨度注释数据集来促进这种检测。我们发现在合成臆想的强解码状态上训练的探针在有机臆想检测中通常是生态上无效的。此外,关于臆想的隐藏状态信息似乎因任务和分布而异。内在和外在臆想的显著性在层次、隐藏状态类型和任务之间变化;尤其是在转换器的内部表示中,外在臆想往往更显著。通过胜过多个现代基准,我们展示了在模型状态可用时,探测是一种可行且高效的语言模型臆想评估替代方法。