Nov, 2022

自然语言生成模型中的间接对象识别电路实现及其解释性

TL;DR本文通过探究 GPT-2 small 在间接宾语识别等自然语言任务中的表现来解释仿真学习模型的行为,其中提及了26种注意力头,本研究是目前规模最大的一次试图从机器学习模型的内部组件入手逆向工程自然行为。我们以及利用了因果干预等解释性方法对我们的解释进行了可靠性评估,工作证明了对大型机器学习模型的机械理解是可行的。