post hoc interpretability methods | BriefGPT

关键词post hoc interpretability methods

搜索结果 - 1

ICLR概念瓶颈模型是否学习预期所得？
研究发现概念瓶颈模型很难满足解释性、可预测性和干预性三个目标，使用事后可解释性方法证明概念与输入空间中任何语义上有意义的东西都不对应，因此质疑概念瓶颈模型在目前形式下的实用性。
PDF3 years ago