Jul, 2024

基于 Transformer 的语言模型的机制可解释性实用综述

TL;DR机械解释性是一种新兴的解释性子领域,通过反向工程其内部计算来理解神经网络模型。本文为了填补这一领域的空白,提出了一份全面的调查报告,概述了机械解释性的研究对象、调查技术、评估结果、重要发现和应用,以及为新手提供的指南。此外,还指出了该领域存在的当前差距,并讨论了潜在的未来发展方向。