使用线性模型 U-Trees 探索可解释的深度强化学习

KDDJul, 2018

使用线性模型 U-Trees 探索可解释的深度强化学习

Toward Interpretable Deep Reinforcement Learning with Linear Model U-Trees

Guiliang Liu, Oliver Schulte, Wang Zhu, Qingcan Li

TL;DR介绍了一种用于 Deep Reinforcement Learning 中 Q functions 的 mimic learning framework，使用 Linear Model U-trees 替代神经网络的 Q function 预测，通过分析特征影响、提取规则和突出图像输入中的超级像素来帮助理解神经网络的学习知识。

Abstract

deep reinforcement learning (DRL) has achieved impressive success in many applications. A key component of many DRL models is a neural network representing a Q function, to estimate the expected cumulative reward following a state-action pair. The Q function neural network contains a l

deep reinforcement learning q functions mimic learning linear model u-trees neural networks

发现论文，激发创造

Dyna-T: 使用 Dyna-Q 和置信上界应用于树

本研究提出了一种基于模型、使用 UCT 搜索和更具鲁棒性的动作选择策略的强化学习算法 Dyna-T，在 Open AI 的三个测试环境中的初步测试表明 Dyna-T 优于最先进的 RL 代理。

Jan, 2022

TreeQN 和 ATreeC：用于深度强化学习的可微分树形结构模型

本研究介绍了一种新的基于在线计划的树形结构模型 TreeQN，并且通过在多种游戏环境中的实验表明 TreeQN 和 ATreeC 模型具备优秀的性能。

Oct, 2017

随机集成双 Q 学习：在没有模型的情况下快速学习

本文介绍了一种名为 REDQ 的简单模型无关算法，通过大比例使用的 Update-To-Data（UTD）比率，在连续动作深度强化学习（DRL）基准测试中实现了与当前最先进的基于模型算法相媲美，甚至更好的性能，同时使用比基于模型的方法更少的参数，并且具有更少的挂钟运行时间，是首个成功使用 UTD 比率 >> 1 的连续动作空间的模型无关 DRL 算法。

Jan, 2021

用树实现奖励学习：方法和评估

本文探讨了使用可读性更好的树模型进行奖励函数生成的优势，并通过实验证明其在高维复杂任务上具有与神经网络同等的有效性与鲁棒性，并展示其可追溯性、验证性和可解释性。

Oct, 2022

逆向强化学习：不预测奖励，只需将其映射到行为

本文中提出了 Upside Down RL，将强化学习转化为一种监督学习，通过对过去的经历进行监督，利用奖励作为任务定义的输入，利用时间长度和历史数据等可计算函数来辅助实现，同时还将此方法应用于模拟行为教学中，并给出了实验结果。

Dec, 2019

使用黑盒强化学习实现分类树的最佳可解释性与性能平衡

该论文研究了一种新的 Reinforcement Learning (RL) 框架，证明了只需要解决一个完全可观测的问题就能学习到一个优化可解释性 - 性能平衡的决策树。

Apr, 2023

强化学习中的神经网络函数逼近的 Sigmoid 加权线性单元

本研究旨在提出两种适用于强化学习中神经网络的激活函数，即 Sigmoid-weighted Linear Unit (SiLU) 和其导数函数 (dSiLU)。同时提出使用在线学习和简单的动态退火 softmax 进行行动选择，可以与 Deep Q Network（DQN）相竞争。此外，还在 Atari 2600 和 SZ-Tetris 等游戏方面，提出的改进网络和学习策略实现了最先进的结果。

Feb, 2017

量子深度循环强化学习

本文介绍了使用量子循环神经网络和深度 Q-learning 算法来解决部分可观察环境中的量子强化学习问题，并且在数值模拟中证明了该方法在标准基准测试如 Cart-Pole 中的结果比经典 DRQN 更加稳定和具有更高的平均分数。

Oct, 2022

只需要有监督学习：从模仿学习到反转强化学习元学习

本文介绍 Upside Down Reinforcement Learning (UDRL) 算法，它使用监督学习实现了强化学习的目标，并可以适用于多种强化学习环境，具有非常广泛的适用性。

Feb, 2022

深度强化学习的浅层更新

本研究提出了一种名为最小二乘深度 Q 网络 (LS-DQN) 的混合方法，它将由深度强化学习算法学习的丰富特征表示与线性最小二乘方法的稳定性相结合。实验表明，与原始的深度 Q 网络 (DQN) 和 Double-DQN 相比，LS-DQN 在五个 Atari 游戏中均表现出显著的性能提升，此方法优越的性能主要归功于优化最后一层时所使用的大批量线性最小二乘方法。

May, 2017