ACLJun, 2023

Transformer 模型中的各向异性是否固有?

TL;DR本文探讨了 self-supervised learning 方法在 transformer 架构的模型中出现的表示退化问题,提到了表征中的各向异性现象,并且指出该问题在表示学习、自然语言处理等领域都具有普适性。