Jan, 2024

Patchscope:语言模型隐藏表示的统一检查框架

TL;DR使用 Patchscopes 框架可以解释大型语言模型的内部表示,统一之前的解释技术并扩展新的应用,如使用更强大的模型来解释较小的模型的表示和多跳推理中的自我校正。