利用人类反馈学习可解释的基于概念的模型

Dec, 2020

利用人类反馈学习可解释的基于概念的模型

Learning Interpretable Concept-Based Models with Human Feedback

Isaac Lage, Finale Doshi-Velez

TL;DR提出了一种透明的机器学习模型学习方法，使用用户的反馈来标记概念特征，从而生成透明的概念定义，以提高模型的可解释性和预测性能。

Abstract

machine learning models that first learn a representation of a domain in terms of human-understandable concepts, then use it to make predictions, have been proposed to facilitate interpretation and interaction with models trained on high-dimensional data. However these methods have imp

machine learning models high-dimensional tabular data transparent concept definitions user feedback predictive performance

发现论文，激发创造

有意义的模型：利用概念结构提高机器学习的可解释性

本文探讨如何利用概念和意义的构建方式来创建更易理解的机器学习模型，通过提出分类概念的新方法，即 “形式” 和 “功能”，阐明了意义的本质，并提出了提高模型可理解性的建议。

Jul, 2016

高风险领域中基于概念和论证的可解释模型

本文提出了基于概念挖掘和基于量化论证的模型（CAM），通过获得人类可理解的概念及其关系，进行知识表征和推理，从而提供一种透明、可解释的模型，该模型具有与人类理解相一致的知识，能够与其他最先进的模型取得竞争结果。

Aug, 2022

利用视觉解释向人类学习者授予类别

该研究旨在提供计算机辅助教学的解释方式，建立一个能够为学习者提供理解性反馈的框架，指导学习者更好地理解相关概念和知识点。研究表明，相较于其他传统方法，该框架能够显著提高学习者在复杂分类任务中的表现。

Feb, 2018

操纵与测量模型可解释性

在高风险领域中，机器学习模型已经被广泛用于辅助决策，而开发可解释的模型的兴趣逐渐增加。然而，是否这些模型能实现预期的效果，我们缺乏实验研究来证明。本研究开展了一系列预先注册的实验，展示了具有不同要素的模型，以调查它们的可解释性。结果表明，模型越透明、特征越少，参与者越能成功地模拟模型的预测，但是参与者并没有更加倾向于紧密关注其预测，而拥有透明的模型却使参与者因信息过载难以检测和修正模型的重大错误。这些结果强调了开发可解释模型时实验测试的重要性。

Feb, 2018

通过引导概念学习实现可理解的卷积神经网络

该论文提出了一种带有附加概念层的 CNN 架构的引导学习方法，用于学习视觉特征和单词短语之间的关联，并通过优化预测准确性和特征表示的语义来学习与人类感知一致的概念，实验结果表明，所提出的模型可以在不牺牲准确性的情况下学习一致于人类感知的概念，并可将这些学习到的概念转移到具有相似概念的新对象类别中。

Jan, 2021

使用统计推理和交互式可视化在学习的表示中发现概念

本文提出两种方法：多重假设检验和交互式可视化，来引导用户发现有意义的概念，通过模拟实验和真实数据的演示可视化，发现这些技术能够在无法预定义描述有意义概念的情况下为用户发现有关概念提供有前途的策略，但不完全自动化该过程。

Feb, 2022

黑盒概念学习模型的优势和风险

介绍了一种中间嵌入概念学习的机器学习模型，其预测性能可以和黑盒预测模型相媲美，但是这些模型学习到的概念表示却可能包含超越预定义概念所能描述的信息，进而导致预测解释存在误导性，研究探讨了信息泄漏的机理，并建议了有效的应对方法。

Jun, 2021

学习可解释概念：统一因果表示学习与基础模型

通过结合因果表示学习和理解如何从数据中学习可理解概念的思想，本研究正式定义了一个概念的概念，并证明了它们可以从多样数据中被可靠地还原，合成数据和大型语言模型上的实验表明了我们统一方法的实用性。

Feb, 2024

LLM 模型的概念归纳：用于评估的用户实验

通过利用 GPT-4 的领域知识和常识能力，我们探索了大型语言模型在图像分类特定环境中生成高级概念作为人类解释的潜力，并通过人类研究评估了其有效性。

Apr, 2024

解释性在旁观者的思维中：一种人类可解释表达学习的因果框架

通过数学框架提出了一种获取可解释表示的方法，旨在建立人与算法方面之间的理解性桥梁，并为人类可解释性表示的新研究奠定基础。

Sep, 2023