关键词attribution-based methods
搜索结果 - 2
- 评估 LLM Rationale 的人类对齐度和模型忠实度
我们研究了大型语言模型(LLM)如何通过原因来解释其生成的模式,它们是从输入文本中提取出来的一组标记,反映了 LLM 的决策过程。我们使用两种方法提取 LLM 原因:1)基于归因的方法使用注意力或梯度来定位重要的标记,以及 2)基于提示的方 - 通过指导因式分解来可视化监督学习和自监督神经网络
本文提出了一种结合梯度和属性方法的算法来提供逐类的可解释性,该算法在纠正显著特征的同时,通过反向投影来提供每像素的局部影响,并成功地证明了在各种基准测试上的优越性能,包括用于梯度方法评估的基准测试以及主要用于评估属性方法的基准测试,此外,本