模型是否自我解释:自然语言解释的反事实仿真性
本研究探究了大型语言模型(LLMs)进行反事实生成和数据增强的能力,发现 LLMs 很有效的进行反事实生成,但因为自身限制和缺少实用逻辑指导,在某些复杂任务上表现欠佳。提供准确的任务定义和详细的操作步骤对于在 LLMs 中生成反事实具有决定性影响。同时,研究还证明了 LLMs 可能在缺乏合理演示的情况下生成合理的反事实,说明演示主要用于规范输出格式。因此,基于 LLMs 进行数据增强来增强 SLMs 是一种非常有前景的研究和应用方向。
May, 2023
使用大型语言模型作为反事实解释模块,通过提取潜在特征生成可解释黑盒文本分类器的决策的对策性解释。通过评估多个具体度的框架变体,显示了在不同设置下这些模型的性能差异,其中一种基于两步特征提取的变体在大多数情况下表现最好。该流程可用于自动解释系统,潜在地减少人工工作量。
Sep, 2023
ChatGPT 的自解释性能与传统方法相媲美,在成本较低的情况下,且具有许多有趣的特性,促使我们重新思考当前在 ChatGPT(类似的 LLM)时代的模型可解释性实践。
Oct, 2023
解释自然语言处理系统预测的因果解释对于确保安全性和建立信任至关重要,本文提出了两种针对模型无关性的倒因果估算方法,分别基于生成和匹配,并通过实验证明了生成模型和匹配模型在模型解释方面的出色性能。
Oct, 2023
NLP 模型生成反事实样本的能力及其对数据增强的影响进行了比较和评估,发现 LLMs 生成流利但改动较大的反事实样本,数据增强效果与人工生成的样本相比有明显差距。此外,LLMs 对偏标签数据的评估表现出明显的偏向性,而 GPT4 对此偏见更加稳健,并且其得分与自动评价指标具有很好的相关性。研究结果揭示了几个限制,并指出了未来的研究方向。
Apr, 2024
介绍了一种提高大型语言模型的自然语言解释质量的生成解释框架 xLLM,该框架通过评估器和迭代优化过程来最大化生成解释的忠实度分数,实验证明 xLLM 可以显著提高生成解释的忠实度。
Feb, 2024
通过与搜索引擎进行对比实验证明,大型语言模型虽然能提高事实核查的效率,但在解释错误的情况下容易让用户过分依赖,因此在高风险环境中不宜将其作为阅读检索内容的可靠替代品。
Oct, 2023
利用自洽性检查作为一种忠实度测量,将其应用于大型语言模型自我解释的三种类型,即反事实解释、重要性度量和删除。通过不同任务和模型,发现忠实度是任务和模型相关的,例如对于情感分类,Llama2 的反事实解释、Mistral 的重要性度量和 Falcon 40B 的删除是更加忠实的。最后,我们的发现在提示变体方面是稳健的。
Jan, 2024