探索性示例模型用于深度强化学习
提出了一种基于模型的强化学习算法,该算法包括明确的探索和利用阶段,并适用于大规模或无限状态空间,该算法维护一组与当前体验一致的动态模型,并通过查找在状态预测之间引起高度分歧的策略来进行探索,然后利用精细化的模型或在探索过程中收集的体验,我们证明,在实现和最优规划的假设下,我们的算法能够用多项式结构复杂度度量在很多自然设置中得到完美的政策,并给出了一个使用神经网络的实用近似,并证明了它在实践中的性能和样本效率。
Nov, 2019
本文提出一种新方法,即生成对抗性探索 (GAEX),来通过引入来自生成对抗网络的内在奖励,鼓励强化学习中的探索,以帮助鉴别是否访问了新颖的状态,而不是像以前的工作一样仅依赖于启发式规则或距离度量。实验结果表明,在 DQN 上应用 GAEX,可以在不进一步调整复杂的学习算法的情况下,在具有挑战性的探索问题中实现令人信服的性能提升,包括游戏 Venture、Montezuma's Revenge 和 Super Mario Bros。据我们所知,这是首次使用 GAN 解决强化学习中的探索问题。
Jan, 2022
本文提出一种基于模型行动选择的强化学习方法,该方法在价值函数的潜在特征空间中学习动态模型,实现机器人和环境的动态表示和模型自我激励,从而解决传统方法当中的探索与利用权衡问题,并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能,重点是改善探索。
Apr, 2018
基于探索的深度强化学习方法对新环境具有良好的泛化能力,通过使用一种基于 Q 值分布集合的探索方法,该算法在 Procgen 和 Crafter 两个高维强化学习一般化基准上取得了最新的进展。
Jun, 2023
本文介绍了一种基于差异性驱动的强化学习探索方法,结合在线和离线强化学习算法,通过向损失函数中添加距离度量,显著提高了代理的探索行为,从而防止局部最优解以及进行了学习进程的自适应缩放方法,实验表明该方法在 Atari 2600 中在多个任务中显著优于基线方法.
Feb, 2018
本研究利用示范来解决强化学习中稀疏奖励的探索问题,成功地学习了长期、多步骤的机器人任务,方法使用了 DDPG 和 HER 算法,提供了一种在仿真机器人任务上比以往 RL 算法快一个数量级的加速,方法易于实现,能够解决在行为克隆和 RL 算法中 都无法解决的任务,并且往往表现优于示范策略。
Sep, 2017
本文研究了强化学习中的探索开发平衡问题,并提出两种基于邻近状态的无模型探索算法,其中一种方法(${ho}$-explore)在离散环境中相比于基准算法 Double DQN,在评估奖励回报方面提高了 49%。
Dec, 2022
采用信息论的观点,我们研究强化学习中的探索问题,并提出了一种新颖的无模型解决方案,通过推导实例特定的下界以及最优的探索策略,我们衍生出一种基于集成模型的无模型探索策略,适用于表格和连续马可夫决策过程, 数值结果表明我们的策略能够比最先进的探索方法更快地找到高效的策略。
Jun, 2024
我们提出了使用基于深度神经网络的期望模型输出变化的新原则来实现连续主动学习和探索算法,为语义概念的主动获取提供一种解决方法,并且我们的实现方法在实验中优于目前使用的启发式算法。
Dec, 2016