BriefGPT.xyz
Ask
alpha
关键词
transformer states
搜索结果 - 1
未来视角:从单个隐藏状态预测后续标记
利用隐藏状态向量进行预测模型,使用线性逼近和因果干预方法对 GPT-J-6B 网络中的隐藏状态进行评估,发现某些层的单一隐藏状态可以以超过 48% 的准确率近似模型输出,并提出了 “未来镜头” 可视化方法来呈现 Transformer 状态
→
PDF
8 months ago
Prev
Next