Jan, 2024
Patchscope:语言模型隐藏表示的统一检查框架
Patchscope: A Unifying Framework for Inspecting Hidden Representations of Language Models
Asma Ghandeharioun, Avi Caciularu, Adam Pearce, Lucas Dixon, Mor Geva
TL;DR使用 Patchscopes 框架可以解释大型语言模型的内部表示,统一之前的解释技术并扩展新的应用,如使用更强大的模型来解释较小的模型的表示和多跳推理中的自我校正。