EMNLPOct, 2023

转换器语言模型中的合理性处理:关注 GPT 中 Attention Heads 的作用

TL;DR本文旨在探索 Transformer 语言模型如何处理语义知识,尤其是名词 - 动词关系的合理性。首先,作者证明了 GPT2 在合理性处理方面与人类相比具有更高的相似度;其次,作者深入研究了 GPT2 中合理性知识如何体现在注意力头中,以及这些头对 GPT2 的合理性处理能力的因果影响。通过多个实验,发现:i) GPT2 有多个注意力头能够检测具有合理名词 - 动词关系;ii) 这些头共同对 Transformer 处理合理性的能力有贡献,尽管贡献的程度不同;iii) 注意力头在检测合理性方面的个体表现不一定与它们对 GPT2 的合理性处理能力的贡献程度相关。