处理成本和约束的离策略深度强化学习
本文提出了一种新的强化学习算法来应对现实世界中存在的约束条件问题,该算法将成本累加约束转化为基于状态的约束,并确保代理在训练过程中满足这些约束,同时保证其最大化回报。实验证明这种基于深度神经网络的算法在安全导航任务和约束版 MuJoCo 环境中表现出色。
Aug, 2020
提出了一种新的算法类,仅需要解决一次 MDP 就能恢复专家策略,在 Continuous state-spaces 中使用函数逼近估算相应的行动 - 价值函数,可以有效替代 (深度) Max-Entropy 算法用于自主驾驶的学习。
Aug, 2020
本论文提出了保守型 Q-learning(CQL),通过学习保守型 Q 函数以得到预期值,有效地解决了离线强化学习(offline RL)中的价值估计问题,从而提高了学习性能。在实验中,我们将 CQL 应用于复杂和多模态数据分布,证明其在离线 RL 方法中的优越性,能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略
Jun, 2020
提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法,通过将状态价值函数视为随机变量,利用泛化能力估计在给定状态下最佳可用行为的价值,实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。
Oct, 2021
本研究提出基于批次强化学习的算法,仅使用固定的离线数据集而非在线与环境的交互来学习有效策略,并通过策略约束和价值约束对数据集不足的情况进行干扰,实现对候选策略的控制,相比于现有的最新方法在多项连续动作批处理强化学习基准测试中表现优异。
Feb, 2021
本文介绍了一种用于加强 on-policy 进行深度强化学习(DRL)算法的有效性的新方法,通过在价值函数估计中加入了保守性指标,同时使用 Thompson sampling 来实现谨慎探索,改进了现有算法,从而在多个基准中进行了严格的实证评估,并提供了理论证明,表明了新算法的可行性,特别是在多智能体强化学习中。
Jun, 2023
提出了一种学习连续状态和动作表达性能量策略的方法,其中软 Q 学习表达了最佳策略,该方法使用 Boltzmann 分布近似样本。通过游泳和行走机器人的模拟实验,证实了该算法的改进探索和组合性,它允许在任务之间转移技能,并且与演员 - 评论员方法存在联系,可以视为对相应能量模型进行近似推断。
Feb, 2017