Nov, 2023

通过概念瓶颈解读预训练语言模型

TL;DR利用高层次、易于理解的概念来解释预训练语言模型的方法,通过人工标注和机器生成的概念来提取隐藏神经元,从而增强模型的鲁棒性和解释能力。