对大型语言模型的对比解释方法
当解答复杂问题时,大型语言模型(LLMs)作为数字助手成为重要工具,然而我们的研究揭示了这种方法中隐藏的风险,称之为 “对抗性有益性”,即 LLMs 的解释使错误答案看起来正确,潜在地导致人们相信错误的解决方案。本文通过识别和研究 LLMs 采用的关键说服策略,揭示出 LLMs 在这方面存在的问题,并通过基于图形导航的特殊任务,验证了 LLMs 生成对抗性有益性解释时导航复杂结构化知识的能力。这些发现明确了黑盒解释设置的局限性,并提供了如何安全使用 LLMs 作为解释器的建议。
May, 2024
解释自然语言处理系统预测的因果解释对于确保安全性和建立信任至关重要,本文提出了两种针对模型无关性的倒因果估算方法,分别基于生成和匹配,并通过实验证明了生成模型和匹配模型在模型解释方面的出色性能。
Oct, 2023
利用大型语言模型和上下文学习,本研究提出了一种新的解释框架,展示了语言模型在解释其他预测模型方面的有效性,并通过实验证明了其与现有解释技术相媲美的性能,从而在可解释的人工智能领域开辟了新的研究前沿。
Oct, 2023
本文探讨大型语言模型(LLMs)的可解释性领域,强调了增强 LLMs 可解释性的必要性,重点关注预训练的基于 Transformer 的 LLMs,如 LLaMA,以及改善模型透明度和可靠性的解释性方法和评估方法的分类与讨论。
Jan, 2024
使用大型语言模型作为反事实解释模块,通过提取潜在特征生成可解释黑盒文本分类器的决策的对策性解释。通过评估多个具体度的框架变体,显示了在不同设置下这些模型的性能差异,其中一种基于两步特征提取的变体在大多数情况下表现最好。该流程可用于自动解释系统,潜在地减少人工工作量。
Sep, 2023
本文研究大型语言模型在上文环境学习中如何利用解释,通过研究计算跟踪和语言表达对影响解释的有效性,我们发现两种因素对于解释的有效性都起重要作用,同时提出了一种基于最大边际相关性的样本选择方法,以构建既相关又补充的样本集,成功提高了大型语言模型在多个真实世界任务上的上下文学习性能。
Nov, 2022