本论文提出了一种低维观察过滤器,使深度 Q 网络代理能够在视觉复杂的现代视频游戏(Neon Drive)中成功玩耍。
Apr, 2022
本论文提出了一种基于 Stored Embeddings for Efficient Reinforcement Learning (SEER) 的改进深度强化学习方法,以减少计算和内存要求,并且在 DeepMind Control 和 Atari 游戏等不同环境中进行了实验证明其可行性。
Mar, 2021
本文介绍了通过将最近的集合表示形式与图神经网络和槽注意方法相结合来处理结构化数据,从而拓宽深度强化学习算法的应用范围,改善训练时间和鲁棒性,并且证明这种方法可以在多种环境下处理结构化和视觉领域的问题。
Jun, 2022
本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法,扩展了状态表示以达到更好的策略泛化能力,同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后,在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。
Nov, 2022
本文提出了一种改进的深度强化学习方法,使用轻量级卷积神经网络和简单的奖励机制对压缩的图像数据进行处理,避免了需要额外环境信息的需求,从而使得使用更小的内存和时间能够在经典控制游戏 “贪吃蛇” 中实现与其它深度强化学习方法相似的性能表现。
Jan, 2023
本文使用时间预测编码等方法,构建了一种信息论方法的强化学习模型,可帮助解决高维度观测值与复杂背景的问题。
Jun, 2021
提出了一种名为动态经验重放(DER)的新技术,它允许强化学习算法不仅使用人类示范的经验重放样本,还使用训练期间由 RL 代理生成的成功转移,因此提高了训练效率,并演示了该方法在机器人紧密配合关节装配任务上的应用。在两项不同的任务中进行实验,并比较不同的重放缓冲区结构和 DER 在其中的影响。
Mar, 2020
本文旨在建立连续控制的视觉基线,通过离线强化学习从视角上建立简单的基线,并在数据集中严格评估算法,同时分析了离线视角下的重要的特殊需求。
通过引入扩展状态 - 奖励空间的高效 EC-based DRL 框架,我们的方法能够同时充分利用检索信息和通过时序差分 (TD) 损失更好地评估状态值,从而在具有挑战性的任务中表现出优越性。
Jan, 2024
该研究提出了一种基于模型的离线 RL 算法,该算法可扩展应用于高维视觉观测空间,通过学习潜在状态动力学模型并在潜在空间中表示不确定性来克服图像观测的挑战,并在多项具有挑战性的基于图像的移动和操纵任务中取得了优异的表现。
Dec, 2020