Dec, 2023

ALMANACS: 一种用于语言模型解释可解释性的可模拟性基准测试

TL;DR我们通过使用 ALMANACS 来评估反事实、合理化、注意力和集成梯度解释等方法,发现没有一种解释方法在所有主题上超过无解释控制的模型,因此在 ALMANACS 中开发一种能够辅助模型可模拟性的解释方法仍然是一个挑战。