May, 2023

LLMs是否可以促进预训练语言模型的解释?

TL;DR利用 ChatGPT 作为注释器,我们在预训练语言模型中发现潜在概念,并采用 GPT 注释进行注释。我们的发现表明,与人类注释概念相比,ChatGPT 产生了准确且语义更丰富的注释。此外,我们展示了 GPT-based 注释如何增强解释分析方法,其中我们展示了两个分析框架:probing framework 和 neuron interpretation。为了促进进一步的探索和实验,我们提供了一个包含 39,000 个注释潜在概念的 ConceptNet 数据集。