Jul, 2024

基于上下文分解的 Transformer 中的机制解释

TL;DR本文介绍了一种用于transformers的上下文分解的解释方法,可以捕捉不同输入特征或源内部组件对最终预测或目标内部组件输出的贡献,用于电路发现等任务,并通过实验验证了其在局部解释方面的出色能力。