Nov, 2020

位置性伪像在掩码语言模型嵌入中传播

TL;DR本文研究表明,基于预训练掩码语言模型的编码器推导出的上下文化字向量在层间分享一种共同的、可能不太理想的模式,即BERT和RoBERTa的隐藏状态向量中存在持续的异常值神经元。这些异常值与位置嵌入所捕获的信息密切相关。我们显示,裁剪这些异常值可提高向量之间的相似性,并导致更好的句子嵌入。