Jun, 2024

对大型语言模型的对比解释方法

TL;DR通过黑盒 / 查询访问,我们提出了两种对比解释方法:一种是效率较高但需要多次模型调用的近视算法,另一种是主要算法贡献的预算算法。我们展示了这些方法在不同自然语言任务中的有效性,例如开放文本生成、自动红队战术和解释对话衰退。