Feb, 2024

自我合理化模型分析的假设驱动框架

TL;DR我们提出了一个基于假设的统计框架,使用贝叶斯网络将任务的内部状态与模板翻译成自然语言,然后将这些解释与 LLM 生成的自由文本解释进行比较,以判断 LLM 和贝叶斯网络的决策过程的相似性,结果显示贝叶斯网络模型与 GPT-3.5 并没有很强的相似性,进一步工作可以通过该框架更好地近似 LLM 的决策。