Oct, 2023

通过解耦位置和上下文揭示 Transformer 中的隐藏几何结构

TL;DR通过将训练后的 Transformer 的隐藏状态或嵌入分解成可解释的组件,本文介绍了一种简单而有信息量的方法,揭示了输入格式在上下文学习和算术任务中的结构洞察。