从 t-SNE 到 SEMI-MDPs 的动态可视化

Jun, 2016

Visualizing Dynamics: from t-SNE to SEMI-MDPs

Nir Ben Zrihem, Tom Zahavy, Shie Mannor

TL;DR本文介绍了一种新的方法，可以自动地发现 Deep Q 网络的内部Semi Markov Decision Process（SMDP）模型，并通过一个有向图以及t-SNE可视化方法呈现SMDP模型，展示了代理策略的解释及 Deep Q 网络自动学习的分层状态聚合的证据。

Abstract

deep reinforcement learning (DRL) is a trending field of research, showing great promise in many challenging problems such as playing Atari, solving Go and controlling robots. While DRL agents perform well in practice we are still missing the tools to analayze their performance and vis

发现论文，激发创造

多层深度选项的发现

本文提出了一种名为DDO的政策梯度算法，用于从一组演示轨迹中发现参数化选项，可递归地用于发现层次结构的附加级别，解决了手动设计选项在高维抽象状态空间中难以实现的问题，提高了深度Q网络代理学习的效率。DDO可加速学习4/5个Atari RAM环境，并在机器人辅助手术视频和动态学方面具有发现结构的能力。

Mar, 2017

深度强化学习中的泛化度量和特征描述

本篇论文重新审视了深度强化学习中表示学习的概念，并提出了几种定义，并在一个通用的测试任务上使用这些定义评估了算法的性能，结果表明代理在一些未被探索的状态下决策结果较差，这暗示我们需要更多的实验和分析，以支持表示学习的相关权利主张。

Dec, 2018

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021

利用视角一致动力学加速数据效率强化学习中的表征学习

通过提出多视角马尔可夫决策过程和视图一致的动力学模型，在深度强化学习中学习图像观测的信息表示，以达到数据高效的目的。该模型在 DeepMind Control Suite 和 Atari-100k 数据集上的实验验证表明，其是视觉控制任务最先进的数据高效算法。

Jan, 2022

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在MountainCar、CarRacing和Cheetah实验中证明了该方法的有效性。

Nov, 2022

混沌中的阶梯：通过策略路径修剪和增强对普适DRL算法进行简单有效的改进

本文研究深度强化学习代理策略网络在学习过程中的演化，发现参数更新存在重大方向和次要方向，提出了基于此发现的简单而有效的方法Policy Path Trimming and Boosting (PPTB)，并证明其与TD3和RAD在MuJoCo和DMC环境中结合使用可以带来更好的性能改进。

Mar, 2023

RL-ViGen：一种用于视觉泛化的强化学习基准

Visual Reinforcement Learning中的generalization问题是一个长期存在的挑战，该研究介绍了一个新的用于Visual Generalization的Reinforcement Learning基准测试框架（RL-ViGen），包含多样的任务和广泛的generalization类型，以便更可靠地评估agent的可视化generalization能力，并发现目前没有单一算法能够在所有任务中普遍占优势，旨在为未来创建适用于实际场景的通用视觉generalization RL agent奠定基础。

Jul, 2023

DrM：通过最小化休眠比率实现视觉强化学习的控制

通过减少网络的休眠比率，提高样本效率和渐进性能的可视化强化学习方法。

Oct, 2023

在潜空间中使用轨迹聚类发现深度强化学习策略中的行为模式

利用维度降低和轨迹聚类在神经网络的潜在空间中，研究深度强化学习代理的行为模式和改进方法。

Feb, 2024

深度强化学习中的高效探索：一种新颖的贝叶斯演员-评论家算法

本研究针对深度强化学习（DRL）中探索效率不足的问题，提出了一种新颖的贝叶斯演员-评论家算法，旨在提升环境的有效探索能力。通过理论研究和实证评估，证明该方法在标准基准和先进评估套件上的优越性，预计将为强化学习社区提供重要的工具和基础。

Aug, 2024