基于模型的离线强化学习与基于计数的保守性
该研究提出一种新的基于模型的线下强化学习算法(COMBO),该算法不需要显式的不确定性估计,通过对已学习模型下的滚动状态动作元组进行价值函数正则化,从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限,且实验表明与先前的线下模型自由和基于模型的方法相比,COMBO 在广泛研究的线下 RL 基准测试中表现持续改进。
Feb, 2021
本文介绍了一种名为 Robust Offline Reinforcement Learning (RORL) 的保守平滑技术,用于解决当前离线 RL 算法在真实环境中遇到观测扰动时的鲁棒性问题,同时还能在性能和鲁棒性上实现权衡,并取得了非常好的表现。
Jun, 2022
本研究提出了基于模型的离线强化学习算法 MOReL,具有模块化设计,可以用于模型生成、不确定性估计、规划等领域,实验结果表明,MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。
May, 2020
针对离线强化学习模型的学习策略和给定数据集之间的分布变化这一难题,提出了一种新的基于模型的离线强化学习框架,名为 ROMI,它通过学习一个反向动力学模型和一种新颖的反向策略,可以在离线数据集内生成无风险 imagination,并启用 model-free 策略学习和保守性的泛化。实证结果表明,该方法能够生成更为保守的行为,并取得最先进的离线强化学习基准任务的表现。
Oct, 2021
提出了一种保守但足够保证泛化性的离线学习算法 Mildly Conservative Q-learning (MCQ),其中通过分配适当的伪 Q 值来积极地训练 OOD 动作,在 D4RL 数据集上实验结果表明 MCQ 相对于之前的工作取得了显着的性能提升和优异的泛化能力。
Jun, 2022
提出了一种新的基于模型的离线学习算法 MICRO,通过引入鲁棒的 Bellman 操作符在性能和稳健性之间进行权衡,可以显著降低计算成本并在离线学习基准测试中优于先前的 RL 算法,对敌对扰动也相当稳健。
Dec, 2023
通过引入保守性估计奖励的方法,本论文提出了一种创新的基于模型的离线增强学习算法,名为 CROP,该算法通过同时最小化估计误差和随机动作的奖励来保守地估计模型训练中的奖励,从而实现保守的策略评估并帮助缓解分布偏移问题。在 D4RL 基准测试中,CROP 的性能与最先进的基准算法相当。值得注意的是,CROP 建立了离线和在线增强学习之间的创新连接,突出了通过采用在线增强学习技术对使用保守奖励训练得到的经验马尔可夫决策过程来解决离线增强学习问题的可行性。
Oct, 2023
离线强化学习中的分布变化问题通过 COmpositional COnservatism with Anchor-seeking (COCOA) 方法得以解决,该方法在复杂的输入空间中寻找共享分布点和差异,从而提高算法性能。
Apr, 2024
本论文提出了保守型 Q-learning(CQL),通过学习保守型 Q 函数以得到预期值,有效地解决了离线强化学习(offline RL)中的价值估计问题,从而提高了学习性能。在实验中,我们将 CQL 应用于复杂和多模态数据分布,证明其在离线 RL 方法中的优越性,能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略
Jun, 2020
这篇论文提出了一种不需要模型不确定性估计的温和保守型基于模型的离线强化学习算法 (DOMAIN),通过引入模型样本的自适应抽样分布来调整模型数据惩罚,理论上证明了该算法在区域外学习到的 Q 值是真实 Q 值的下界,与先前的基于模型的离线强化学习算法相比,DOMAIN 是较保守的,并且具有安全策略改进的保证。大量实验证明 DOMAIN 在 D4RL 数据集基准上优于先前的强化学习算法,并且在需要泛化的任务上比其他强化学习算法表现更好。
Sep, 2023