有状态约束的离线强化学习
我们提出了一种自适应的行动量化方案,通过使用 VQ-VAE 学习状态条件的行动量化,避免了行动空间的指数爆炸问题,并通过离线强化学习方法在基准测试中改进了性能,同时在 Robomimic 环境中的复杂机器人操作任务中,离线强化学习算法通过离散化相对于连续方法实现了 2-3 倍的改进。
Oct, 2023
本研究提出基于批次强化学习的算法,仅使用固定的离线数据集而非在线与环境的交互来学习有效策略,并通过策略约束和价值约束对数据集不足的情况进行干扰,实现对候选策略的控制,相比于现有的最新方法在多项连续动作批处理强化学习基准测试中表现优异。
Feb, 2021
提出了一种名为 Strategically Conservative Q-Learning (SCQ) 的新框架,用于解决离线强化学习中的逼近误差和分布外动作的问题,在 D4RL 基准任务上表现优于现有方法。
Jun, 2024
通过在分布式的约束条件如 onservative Q-learning 基础上引入信息检索过程,有效地减轻了失衡数据集所带来的挑战,我们提出了一种新颖的离线强化学习方法,并在不同程度失衡的数据集上的几个任务中评估了其优劣。
Jul, 2023
通过领域知识约束和自适应改进初步的领域知识,该论文提出了一种能够显著提高有限数据下性能的新颖离线强化学习(RL)算法,并通过对标准离散环境数据集的实证评估,显示相比于现有离线 RL 算法,性能至少提升了 27%。
Jun, 2024
本文旨在通过对状态空间进行数据扩充来提高线下强化学习算法的泛化性能,并结合最先进的 Q-learning 技术,通过平滑学习到的状态 - 动作空间,实现在 MetaWorld 和 RoboSuite 等机器人学习环境以及 D4RL 数据集上显著的提升。
Mar, 2021
提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法,通过将状态价值函数视为随机变量,利用泛化能力估计在给定状态下最佳可用行为的价值,实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。
Oct, 2021
本文综述了在强化学习中解决状态限制问题的现存方法并比较了它们在安全性、可伸缩性、奖励表现等方面的差异和权衡,同时总结了当前方法的局限性并探讨了未来的研究方向。
Feb, 2023
离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决,本文提出了两种使用该框架的离线强化学习算法,并通过模拟实验展示了其优越性能。
Oct, 2023