Sep, 2020

注意力遇到扰动:通过对抗训练实现鲁棒性和可解释性的注意力机制

TL;DR本文提出对自然语言处理任务进行通用训练的技术,包括关注力对抗训练(Attention AT)和更易于解释的关注力对抗训练(Attention iAT)。该方法通过引入对抗扰动,增强了句子注意力的差异,提高了模型的预测性能和可解释性,并且尤其适用于关注力机制。实验表明,Attention iAT 在十项任务中表现最佳,并且其结果的注意力与基于梯度的单词重要性的相关性更强。此外,该方法不太依赖于对抗扰动的大小。