Mar, 2024

自我解读:大型语言模型嵌入的自我解释

TL;DR通过使用自然语言解释嵌入,SelfIE 可以揭示大型语言模型的内部推理过程,从而实现对其推理过程的解释和控制,进而提高可靠性、透明度和未来模型发展的能力。另外,我们提出了监督控制和强化控制的方法,分别用于编辑开放性概念和消除有害知识。