Feb, 2024

LLM 生成的解释的属性和挑战

TL;DR大语言模型的自我合理化能力在受限环境下得到了探索,当前的语言模型不仅依赖特定注释数据,还经常对其输出进行解释,生成的解释具有人类解释的常见属性。通过对多领域训练数据集的输出进行分析,我们发现生成的解释表现出选择性和包含说明性元素,但不太主观或误导性,我们讨论了这些属性存在与缺失的原因和后果,特别是根据自我合理化系统的目标和用户群体,概述了正面和负面的影响。