Sep, 2023

大型语言模型对词级扰动真的具有强健性吗?

TL;DR利用预训练的奖励模型作为诊断工具,我们提出了一种用于评估大规模语言模型的稳健性的新方法,称为奖励模型合理鲁棒性评估(TREvaL)。经过广泛的实证实验,我们发现 TREvaL 在评估大规模语言模型的稳健性方面提供了一种准确的方法,尤其是在面对更具挑战性的开放性问题时。此外,我们的结果表明,大规模语言模型经常表现出对词级扰动的脆弱性,而这种扰动在日常语言使用中很普遍。令人惊讶的是,我们发现随着进一步的微调(SFT 和 RLHF)进行,模型的鲁棒性往往会降低。