从 t-SNE 到 SEMI-MDPs 的动态可视化
本文提出了一种名为DDO的政策梯度算法,用于从一组演示轨迹中发现参数化选项,可递归地用于发现层次结构的附加级别,解决了手动设计选项在高维抽象状态空间中难以实现的问题,提高了深度Q网络代理学习的效率。DDO可加速学习4/5个Atari RAM环境,并在机器人辅助手术视频和动态学方面具有发现结构的能力。
Mar, 2017
本篇论文重新审视了深度强化学习中表示学习的概念,并提出了几种定义,并在一个通用的测试任务上使用这些定义评估了算法的性能,结果表明代理在一些未被探索的状态下决策结果较差,这暗示我们需要更多的实验和分析,以支持表示学习的相关权利主张。
Dec, 2018
通过提出多视角马尔可夫决策过程和视图一致的动力学模型,在深度强化学习中学习图像观测的信息表示,以达到数据高效的目的。该模型在 DeepMind Control Suite 和 Atari-100k 数据集上的实验验证表明,其是视觉控制任务最先进的数据高效算法。
Jan, 2022
本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法,扩展了状态表示以达到更好的策略泛化能力,同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后,在MountainCar、CarRacing和Cheetah实验中证明了该方法的有效性。
Nov, 2022
本文研究深度强化学习代理策略网络在学习过程中的演化,发现参数更新存在重大方向和次要方向,提出了基于此发现的简单而有效的方法Policy Path Trimming and Boosting (PPTB),并证明其与TD3和RAD在MuJoCo和DMC环境中结合使用可以带来更好的性能改进。
Mar, 2023
Visual Reinforcement Learning中的generalization问题是一个长期存在的挑战,该研究介绍了一个新的用于Visual Generalization的Reinforcement Learning基准测试框架(RL-ViGen),包含多样的任务和广泛的generalization类型,以便更可靠地评估agent的可视化generalization能力,并发现目前没有单一算法能够在所有任务中普遍占优势,旨在为未来创建适用于实际场景的通用视觉generalization RL agent奠定基础。
Jul, 2023
本研究针对深度强化学习(DRL)中探索效率不足的问题,提出了一种新颖的贝叶斯演员-评论家算法,旨在提升环境的有效探索能力。通过理论研究和实证评估,证明该方法在标准基准和先进评估套件上的优越性,预计将为强化学习社区提供重要的工具和基础。
Aug, 2024