Nov, 2023

模型评估和自动可解释性的鲁棒性探索

TL;DR通过对语言模型进行评估,我们发现其在不同数据集中,包括新的虚假评估中,对评估注入的改变非常敏感。类似的注入也可用于自动的解释性框架,以产生误导性的模型编写解释。这些结果激发了进一步的研究,并应该警告我们不要对评估和自动解释过度信任。