基于模型的主动探索
本文提出了模型集成的方法 MEEE,其中含有一些特殊的探索和利用策略,解决了现有方法中存在的问题,包括计划探索、评估学习模型的不确定性以及更加合理利用学习模型等。在多项持续控制基准测试中,该方法表现优于其他无模型和有模型的现有方法,尤其在样本复杂度方面表现更加卓越。
Jul, 2021
采用信息论的观点,我们研究强化学习中的探索问题,并提出了一种新颖的无模型解决方案,通过推导实例特定的下界以及最优的探索策略,我们衍生出一种基于集成模型的无模型探索策略,适用于表格和连续马可夫决策过程, 数值结果表明我们的策略能够比最先进的探索方法更快地找到高效的策略。
Jun, 2024
通过引入预测模型和离线学习元素,结合一个实用性较高的终端价值函数,本文研究了如何在连续控制任务中实现样本高效的探索能力。通过利用潜在状态空间内的前向预测误差,我们得出了一种不引入额外参数的固有奖励。该奖励与模型不确定性有强烈的关联,使得智能体能够有效地克服渐进性能差距。通过广泛的实验证明,我们的方法在与以往工作的比较中表现出有竞争力的甚至更优异的性能,尤其是在稀疏奖励的情况下。
Mar, 2024
本研究提出了一个易于实现的 RL 框架 Maximize to Explore(MEX),它通过最大化一个综合了估计和规划分量的单一目标,在自动平衡探索和利用方面实现了比现有算法更高的采样效率,并实现了更低的计算成本和更好的与现代深度 RL 方法兼容性。
May, 2023
本文探讨了如何对未知的动态系统进行探索以解决多个下游任务的优化问题,提出了一种使用概率模型来量化关于未知动态的认识不确定性的算法 OPAX,结果表明 OPAX 不仅在理论上具有可行性,在新的下游任务的零 - shot 规划上也表现良好。
Jun, 2023
提出了基于活跃学习文献中的一种探索式学习方法,该方法使用动态模型集成,通过最大化这些集成之间的差异性来训练智能体,从而使该智能体自我监督地学习技能,无需外部奖励,并且还利用该探索方法来优化代理的策略而不使用强化学习
Jun, 2019
本研究针对在 Markov 决策过程中的主动探索问题进行了研究,提出了一种新的学习算法,用以解决 MDPs 中的主动探索问题并证明了其相对于 MAB 来说更为复杂,同时也给出了一个用于缓解策略收敛速度缓慢的启发式过程。
Feb, 2019
本文研究了基于 Markov 决策过程 (MDP) 环境中的精确建模的高效探索问题,提出一种以加权熵为基础的算法用于解决贪心算法在探索初阶段表现较差的问题,并在简单的具有异构噪音的两个问题上进行了验证。
Mar, 2020