BriefGPT.xyz
Ask
alpha
关键词
interpretability-faithfulness
搜索结果 - 1
大型语言模型能自我解释吗?
利用自洽性检查作为一种忠实度测量,将其应用于大型语言模型自我解释的三种类型,即反事实解释、重要性度量和删除。通过不同任务和模型,发现忠实度是任务和模型相关的,例如对于情感分类,Llama2 的反事实解释、Mistral 的重要性度量和 Fa
→
PDF
6 months ago
Prev
Next