Feb, 2024

关于注意力层的词敏感性理解:通过随机特征的研究

TL;DR通过对随机特征的原型设定研究词敏感性,我们展示了注意力层在自然语言处理任务中具有较高的词敏感性,同时更好地理解了为何注意力层适用于这些任务,从而揭示出它相比其他激活函数(如 ReLU)具有的优势。同时,我们将词敏感性的结果转化为泛化界限,验证了随机注意力特征具有较高泛化能力的理论结果,并在 imdb 评论数据集中对 BERT-Base 词嵌入进行实证验证。