EMNLPOct, 2023

学习使用非参数化变分信息瓶颈进行抽象

TL;DR本论文介绍了一种能够学习在同一模型的不同层次进行不同抽象级别压缩的语言表示模型,并通过在编码器的堆叠 Transformer 自注意力层中应用非参数变分信息瓶颈 (NVIB) 来促进表示的信息理论压缩。论文发现模型内的不同层次对应于不断增加的抽象级别,并且它们的表示更具有语言学信息。最后,实验证明 NVIB 压缩能够产生更具鲁棒性的模型,面对对抗性扰动更加稳健。