通过最大化Rényi熵进行无奖励强化学习框架探索
该研究论文提出了一种基于`meta-policy gradient`算法的自适应学习方法,可用于解决现有基于添加噪声的探索方法仅能探索接近actor策略的局部区域的问题,从而实现独立于actor策略的全局探索,而这对各种强化学习任务的样本效率都有相当大的提升。
Mar, 2018
研究探讨了在连续时间内通过采用熵正则化奖励函数促进探索和利用现有知识之间达到的最佳折衷方案,提出使用行为分布的微分熵来规范化奖励函数的熵正则化,并通过高斯分布表征推导出最佳反馈控制分布来平衡利用和探索性搜索,最后通过熵正则化 LQ 问题的解法证明当探索比重衰减至零时,解法能够收敛于经典 LQ 问题的解。
Dec, 2018
本文通过提出新的策略搜索算法MEPOL(Maximum Entropy POLicy optimization),并在实验中展示了它在高维、连续控制领域中学习最大熵策略的能力,为研究agent在无奖励环境中探索最优策略的内在目标提供了一种可行的选择。
Jul, 2020
本文介绍了通过Geometric Entropy Maximisation(GEM)算法,实现在离散和连续领域中最大化状态访问的Shannon熵的几何感知,以解决复杂的强化学习问题。该算法的优势在于可以很好地解决具有稀疏奖励的强化学习问题,并被证实比其他深度强化学习探索方法更有效。
Jan, 2021
本文介绍了一种名为Robust Policy Optimization的算法,该算法应用于强化学习中,利用扰动分布来提高策略的熵,提高探索性能,取得了比PPO等算法更好的性能表现,并在多个环境中表现出鲁棒性能。
Dec, 2022
本文研究了强化学习中的无奖励探索并设计了一种算法来提高其效率,该算法不需要提前了解奖励函数。算法最多需要采集SAH^3/ε^2个样本轨迹就能对于所有感兴趣的奖励函数找到ε-optimal策略,而且算法还能在样本量超过S^2AH^3/ε^2个轨迹时无限找到ε-optimal 策略,即便这些奖励函数是对抗性设计的。
Apr, 2023
我们提出了一种更简单的单循环,无参数归一化策略梯度算法,用于解决具有一般效用的强化学习问题,其中包括约束强化学习,纯探索以及从演示中学习等问题,同时通过线性函数逼近解决大状态-动作空间的设置,并展示了简单的策略梯度法的样本复杂度。
Jun, 2023
基于双Q函数框架,引入一种新的探索策略来解决连续动作空间中政策梯度法探索的问题,通过使用贪婪Q值和保守Q值的加权和来更新Q值,将行动探索与Q值更新相结合,并在Mujoco基准测试中展示了优越的性能。
Aug, 2023
此研究论文介绍了一种名为 $f$-PG 的新型鼓励探索方法,通过最小化智能体状态访问分布与目标之间的 f-分歧来实现稀疏奖励环境下的优化策略,同时引入了熵正则化策略优化目标 $s$-MaxEnt RL 用于优化度量为 L2 的奖励,在多个环境中展示了与标准策略梯度方法相比更好的性能。
Oct, 2023