关键词self-rationalising capabilities
搜索结果 - 2
- LLM 生成的解释的属性和挑战
大语言模型的自我合理化能力在受限环境下得到了探索,当前的语言模型不仅依赖特定注释数据,还经常对其输出进行解释,生成的解释具有人类解释的常见属性。通过对多领域训练数据集的输出进行分析,我们发现生成的解释表现出选择性和包含说明性元素,但不太主观 - 自我合理化模型分析的假设驱动框架
我们提出了一个基于假设的统计框架,使用贝叶斯网络将任务的内部状态与模板翻译成自然语言,然后将这些解释与 LLM 生成的自由文本解释进行比较,以判断 LLM 和贝叶斯网络的决策过程的相似性,结果显示贝叶斯网络模型与 GPT-3.5 并没有很强