自监督可解释的基于概念的文本分类模型

Jun, 2024

自监督可解释的基于概念的文本分类模型

Self-supervised Interpretable Concept-based Models for Text Classification

Francesco De Santis, Philippe Bich, Gabriele Ciravegna, Pietro Barbiero, Danilo Giordano...

TL;DR该研究论文提出了一种自监督可解释概念嵌入模型（ICEMs），通过利用大型语言模型的泛化能力，在自监督方式下预测概念标签，并通过可解释的函数提供最终预测结果。实验结果表明，ICEMs 可以以自监督方式进行训练，并达到类似于全监督概念模型和端到端黑盒模型的性能。此外，该模型在预测方面具有解释性、互动性和可控性，能够提供有意义的逻辑解释、允许通过概念干预修改中间预测结果，并引导大型语言模型按照所需的决策路径进行解码。

Abstract

Despite their success, large-language models (LLMs) still face criticism as their lack of interpretability limits their controllability and reliability. Traditional post-hoc interpretation methods, based on atten

large-language models interpretability concept-based models self-supervised learning interpretable function

发现论文，激发创造

LLM 模型的概念归纳：用于评估的用户实验

通过利用 GPT-4 的领域知识和常识能力，我们探索了大型语言模型在图像分类特定环境中生成高级概念作为人类解释的潜力，并通过人类研究评估了其有效性。

Apr, 2024

大语言模型时代的可解释性重新思考

可解释机器学习与大型语言模型相结合，评估解释方法并提出使用语言模型分析数据集和生成交互式解释的两个研究重点。

Jan, 2024

基于大型语言模型的建筑能源系统解释性机器学习控制

通过结合 Shapley 值和大型语言模型（LLM）的特点，本文研究了可解释的机器学习（IML）在 HVAC 系统中的应用，以提高 MLC 的可信度和工业应用。作者通过案例研究在虚拟试验平台上展示了开发的 IML 框架在需求响应事件中的模型预测控制上的可行性，并证明该框架按照基于规则的原理生成和解释控制信号。

Feb, 2024

自我解读：大型语言模型嵌入的自我解释

通过使用自然语言解释嵌入，SelfIE 可以揭示大型语言模型的内部推理过程，从而实现对其推理过程的解释和控制，进而提高可靠性、透明度和未来模型发展的能力。另外，我们提出了监督控制和强化控制的方法，分别用于编辑开放性概念和消除有害知识。

Mar, 2024

自动概念嵌入模型 (ACEM): 无需训练时间概念，无问题！

神经网络的可解释性和解释能力在特别是在安全关键领域和提供社会解释权方面不断增加。定概念解释在线合人类推理的方式上效果良好，是一种很好的解释模型的方法。概念嵌入模型是一种基于概念的解释架构，已经证明在解释能力和性能之间取得了平衡。然而，它们存在一个关键限制 -- 需要为所有训练数据提供概念注释。针对这一问题，我们提出了自动概念嵌入模型（ACEMs），可以自动学习概念注释。

Sep, 2023

IERL: 可解释的集成表示学习 —— 结合众包知识和分布式语义表示

研究通过使用知识图谱来优化大型语言模型的性能，并提出了一种能够解释的集成学习方法 (IERL)，在 General Language Understanding Evaluation (GLUE) 任务中表现良好。

Jun, 2023

利用大型语言模型揭秘嵌入空间

利用大型语言模型将嵌入向量转化为可理解的叙述，解决了嵌入向量难于解释和使用的问题，增强了概念激活向量、通信新的嵌入实体和解码推荐系统用户偏好等任务的能力。

Oct, 2023

使用 LLMs 和可解释模型的数据科学

大规模语言模型与可解释模型（Interpretable Models）能够相互配合，LLMs 能够描述、解释和调试广义可加模型（Generalized Additive Models），结合 GAMs 描述的统计模式，使得数据集概述、问题回答和模型评论成为可能。LLMs 还能改进领域专家和可解释模型之间的交互，并产生关于潜在现象的假设。

Feb, 2024

大型语言模型是事后解释器吗？

利用大型语言模型和上下文学习，本研究提出了一种新的解释框架，展示了语言模型在解释其他预测模型方面的有效性，并通过实验证明了其与现有解释技术相媲美的性能，从而在可解释的人工智能领域开辟了新的研究前沿。

Oct, 2023

大型语言模型是可解释学习者

大型语言模型与符号程序的结合可以在构建人类中心预测模型时解决表达力和解释性之间的平衡问题。

Jun, 2024