通过规划最大化任务最优轨迹的期望信息增益的行动序列,使得该方法在较低的样本量下能够学习较强的策略,比探索基线算法少用 2 倍样本,比模型自由方法少用 200 倍样本。
Oct, 2022
基于双 Q 函数框架,引入一种新的探索策略来解决连续动作空间中政策梯度法探索的问题,通过使用贪婪 Q 值和保守 Q 值的加权和来更新 Q 值,将行动探索与 Q 值更新相结合,并在 Mujoco 基准测试中展示了优越的性能。
Aug, 2023
本文提出了一种将先前的专家知识与连续 actor-critic RL 框架相结合的简单且有效的方法,以加速策略的学习过程并减少样本复杂度。结果显示,这种方法使得 RL agent 在保持最终性能的情况下,比传统的 RL agent 更快收敛一个数量级。
Nov, 2022
提出了一种学习连续状态和动作表达性能量策略的方法,其中软 Q 学习表达了最佳策略,该方法使用 Boltzmann 分布近似样本。通过游泳和行走机器人的模拟实验,证实了该算法的改进探索和组合性,它允许在任务之间转移技能,并且与演员 - 评论员方法存在联系,可以视为对相应能量模型进行近似推断。
Feb, 2017
使用课程学习和跨行动空间的迁移学习来加速强化学习,通过限制其初始行动空间,同时为多个行动空间估算最优值函数,并高效地将数据、价值估计和状态表示从限制的行动空间转移到完整任务上,成功应用于复杂的大规模 StarCraft 微管理任务和控制任务中。
Jun, 2019
本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域,并提出将单个随机操作选择替换为随机目标选择,该方法与任何基于好奇心的探索和脱机强化学习代理兼容,并生成比单个随机操作更长且更安全的轨迹。
Jul, 2018
本文介绍了一种名为 Robust Policy Optimization 的算法,该算法应用于强化学习中,利用扰动分布来提高策略的熵,提高探索性能,取得了比 PPO 等算法更好的性能表现,并在多个环境中表现出鲁棒性能。
Dec, 2022
本文提供了一个应对强化学习的框架,解决了建模不确定性和计算成本高的问题,通过使用强化学习来解决随机动态规划方程,所得的强化学习控制器对多种类型的约束条件是安全的,并且可以主动学习建模不确定性,实现实时学习。通过模拟实例证明了提出方法的有效性。
Sep, 2023
我们提出了一种新的分析方法,并区分了探索技术的两个不同影响。首先,它们使得能够平滑学习目标并消除局部最优解,同时保留全局最优解。其次,它们修改了梯度估计,增加了随机参数更新最终提供最优策略的概率。在这些影响的基础上,我们讨论并通过熵奖励进行了实证研究,突出了其局限性,并为该策略的设计和分析开辟了未来的研究方向。
Jan, 2024
本文提出了一个名为 Extreme Q-Learning 的在线和离线 MaxEnt Q-learning 算法,通过使用极值理论(EVT)来直接建模最大价值,而无需使用超出分布的操作估计 Q 值。该算法在 D4RL 基准测试中表现良好,并在在线 DM 控制任务上适度改进了 SAC 和 TD3。
Jan, 2023