本文提出增强学习可用于学习不同用户可解释的模型,由此建立他们对机器学习模型的信任。通过与医生交互,基于神经网络模型,设计了一个基于强化学习的临床决策支持系统,结果表明,机器学习专家无法准确预测哪个系统输出将最大化临床医生对底层神经网络模型的信心,这些结果对将来机器学习可解释性研究以及机器学习在医学中的应用都具有广泛的意义。
Nov, 2018
本研究提出了一种新的框架,利用对抗性逆强化学习,可以为强化学习模型做出的决策提供全局解释,并通过总结模型的决策过程来捕捉直观的倾向。
Mar, 2022
提出了一种基于状态转移模型的强化学习局部可解释风险的方法,并通过实验证明了其有效性。
May, 2021
本文系统地概述了现有的可解释强化学习方法,提出了一个新的统一分类方法,并建立了三个支柱来减少解释生成和接收方之间的差距并实现解释的诚实和真实性。
该论文对可解释强化学习方法进行了归类和评估,并发现大多数方法是通过模仿和简化复杂模型而非设计本质简单模型来实现目的的,缺乏人文思考和跨学科研究。因此需要进行一系列的跨学科努力才能将这些生成的解释改进为非专家用户易于理解的形式,以实现可解释人工智能的最终目标。
May, 2020
本篇综述论文将积极介绍深度强化学习与可解释机器学习的交叉,比较了先前的方法,提出了一种补充,阐明了深度学习对智能机器人控制任务的适用性,强调机器学习与人类知识相互融合提升学习效率和性能的意义,并评估了未来 XRL 研究面临的挑战和机遇。
Nov, 2022
本文提出了一种方法,使强化学习代理能够解释其行为,以期实现机器学习模型的透明化。通过将状态和行动转换为易于人类理解的描述,并使用一种可生成解释的格式,进行了计算,结果表明人类用户倾向于关注政策而非单个操作。
Jul, 2018
本文评估了直接将可解释性与强化学习相关联的研究,分为两类:透明算法和事后解释能力,并从解释如何潜在地启示最新的强化学习进展的角度回顾了最突出的 XAI 作品,以便在日益严峻和复杂的现实问题的未来部署中有所启示。
Aug, 2020
本文提出利用基于记忆的可解释强化学习方法解决分层任务的复杂性,并计算成功概率用于解释代理的行为。结果表明,在高层任务中使用记忆算法可以计算出代理的成功概率并用作指导其行为的基础。
Dec, 2022
通过使用形式化的马尔科夫决策过程抽象和转换,以自动产生解释的方式,解释强化学习智能体的新兴行为。
Sep, 2022