Nov, 2023
模型评估和自动可解释性的鲁棒性探索
Exploring the Robustness of Model-Graded Evaluations and Automated Interpretability
Simon Lermen, Ondřej Kvapil
TL;DR通过对语言模型进行评估,我们发现其在不同数据集中,包括新的虚假评估中,对评估注入的改变非常敏感。类似的注入也可用于自动的解释性框架,以产生误导性的模型编写解释。这些结果激发了进一步的研究,并应该警告我们不要对评估和自动解释过度信任。