提出了一种用于深度强化学习的高效适应性轨迹约束探索策略,利用不完整的离线演示作为参考,引入了一种新的基于策略梯度的优化算法,为单智能体和多智能体强化学习提供了一种自适应剪切轨迹距离奖励的方法。通过对两个大型二维网格世界迷宫和几个 MuJoCo 任务的实验验证,证明了该方法在实现时间延长的探索和避免短视和次优行为方面的显著优势。
Dec, 2023
通过规划最大化任务最优轨迹的期望信息增益的行动序列,使得该方法在较低的样本量下能够学习较强的策略,比探索基线算法少用 2 倍样本,比模型自由方法少用 200 倍样本。
Oct, 2022
本研究基于强化学习,通过在人工设计产生的广泛目标空间中寻找可控、可达、新颖和相关目标的自主发现过程,弥补探索广域领域中新奇性和涵盖性行为不足的问题,并在三种具有挑战性的环境中证明了目标导向的探索的有效性。
Feb, 2023
Go-Explore 算法通过显式地记住有前途的状态并在有意探索之前首先回到这些状态的简单原则,直接解决了探索中的 “detach” 和 “derailment” 问题,并在所有难探索游戏上超越了现有技术,并在稀疏奖励抓取放置机器人任务上展示了其实际潜力。
Apr, 2020
通过分析优化目标条件下的价值函数的几何特征,我们提出了一种使用基于模型的规划和基于图形的价值聚合方案相结合的方法来纠正学习价值函数中的估计伪像,并在各种模拟环境中显著提高了零 - shot 目标达成性能。
Nov, 2023
本文介绍了一种基于差异性驱动的强化学习探索方法,结合在线和离线强化学习算法,通过向损失函数中添加距离度量,显著提高了代理的探索行为,从而防止局部最优解以及进行了学习进程的自适应缩放方法,实验表明该方法在 Atari 2600 中在多个任务中显著优于基线方法.
Feb, 2018
本文探讨了当测试目标分布过于远离时,多目标强化学习应当追求怎样的目标,提出了优化历史完成目标分布熵的内在目标,通过在目标空间中极少被探索区域内的历史完成目标的追求实现探索,成功提高了长期目标任务中的数据利用效率。
Jul, 2020
该论文提出了一个新的 “无奖励强化学习” 框架,通过在探索阶段从 MDP 采集轨迹来找到探索策略,并使用黑盒近似规划器计算接近最优的策略。
Feb, 2020
本篇论文提出了一种基于强化学习和 UVFA 框架的方法,通过学习一系列定向的探索策略来解决难以探索的游戏,并使用轨迹存储和 kNN 算法来构造一种内在奖励信号,以影响策略的学习方式,并在 Atari-57 游戏套件中得到了很好的表现结果。
该研究提出了一种称为任务不可知强化学习 (task-agnostic RL) 的框架,用于解决强化学习中的有效探索挑战,该框架利用样本奖励值和一系列探索轨迹来发现复杂任务的最优策略,并给出了基于样本奖励值的有效算法 UCBZero。
Jun, 2020