ACLMay, 2023

前缀传播:用于长序列的参数有效调整

TL;DR本论文探讨了为长序列语言任务实现参数有效学习的方法,提出了一种基于前缀传播的简单且有效的方法,在校准和核注意力方面表现出优越性,并且使用的参数比前缀调整少 50%。