AAAIMar, 2024

关于大型语言模型的可解释性以及基于词级的一元一阶合理性假设的问题

TL;DR大型语言模型的解释对其训练中的随机性具有敏感性,因此需要对此敏感性进行描述。本文提出一种描述方法,并指出基于特征的简单模型的解释比基于 Transformer 的模型表现更好,同时还讨论了通过改进信号和噪音的定义来捕捉更复杂的解释和分析方法的可能性,但也对这种改进对读者的可信度产生了质疑。