Feb, 2024

研究模型不稳定性对解释和不确定性的影响

TL;DR通过人为引入噪音来模拟文本输入的认知不确定性,在大规模实证研究中,我们插入不同级别的噪音扰动,并测量其对预训练语言模型输出和不同不确定性度量的影响。实际扰动对性能和解释几乎没有影响,而掩饰却有极大影响。我们发现在训练过程中暴露噪声时,高不确定性不一定意味着解释的可信度低;两个度量之间的相关性可能是适度正向的,这表明在不确定时加入噪声的模型可能更容易识别显著的标记。此外,当预测和认知不确定性度量过于自信时,对扰动的鲁棒性可能表明模型的稳定性问题。Integrated Gradients 显示了对扰动的整体最大鲁棒性,同时仍显示出模型特定的性能模式;然而,这种现象仅限于较小的基于 Transformer 的语言模型。