组成保守主义:离线强化学习中的传导式方法
提出了一种适用于风险中性和风险厌恶领域的离线强化学习算法 CODAC,通过对预测收益分位数的度量来适应分布式强化学习,证明 CODAC 学习一个保守收益分布,并在机器人导航任务上成功地学习了风险厌恶策略,表现优于 D4RL MuJoCo 基准测试的方法。
Jul, 2021
该研究提出一种新的基于模型的线下强化学习算法(COMBO),该算法不需要显式的不确定性估计,通过对已学习模型下的滚动状态动作元组进行价值函数正则化,从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限,且实验表明与先前的线下模型自由和基于模型的方法相比,COMBO 在广泛研究的线下 RL 基准测试中表现持续改进。
Feb, 2021
本论文提出了保守型 Q-learning(CQL),通过学习保守型 Q 函数以得到预期值,有效地解决了离线强化学习(offline RL)中的价值估计问题,从而提高了学习性能。在实验中,我们将 CQL 应用于复杂和多模态数据分布,证明其在离线 RL 方法中的优越性,能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略
Jun, 2020
本文介绍了一种名为 Robust Offline Reinforcement Learning (RORL) 的保守平滑技术,用于解决当前离线 RL 算法在真实环境中遇到观测扰动时的鲁棒性问题,同时还能在性能和鲁棒性上实现权衡,并取得了非常好的表现。
Jun, 2022
提出了一种名为 Strategically Conservative Q-Learning (SCQ) 的新框架,用于解决离线强化学习中的逼近误差和分布外动作的问题,在 D4RL 基准任务上表现优于现有方法。
Jun, 2024
通过引入保守性估计奖励的方法,本论文提出了一种创新的基于模型的离线增强学习算法,名为 CROP,该算法通过同时最小化估计误差和随机动作的奖励来保守地估计模型训练中的奖励,从而实现保守的策略评估并帮助缓解分布偏移问题。在 D4RL 基准测试中,CROP 的性能与最先进的基准算法相当。值得注意的是,CROP 建立了离线和在线增强学习之间的创新连接,突出了通过采用在线增强学习技术对使用保守奖励训练得到的经验马尔可夫决策过程来解决离线增强学习问题的可行性。
Oct, 2023
提出了一种保守但足够保证泛化性的离线学习算法 Mildly Conservative Q-learning (MCQ),其中通过分配适当的伪 Q 值来积极地训练 OOD 动作,在 D4RL 数据集上实验结果表明 MCQ 相对于之前的工作取得了显着的性能提升和优异的泛化能力。
Jun, 2022
本文提出了一种基于模型的离线强化学习方法 $ exttt {Count-MORL}$,该方法利用状态 - 动作对的计数估计量来量化模型估计误差,并首次演示了计数保守性在基于模型的离线深度强化学习中的效果。通过广泛的数值实验,我们验证了使用哈希码实现的 $ exttt {Count-MORL}$ 在 D4RL 基准数据集上明显优于现有离线强化学习算法。
Jul, 2023
该研究的目标是通过使用 Normalizing Flows 进行深度学习,利用先前记录的数据集来训练一个采取更保守行动的策略模型,以解决离线增强学习中的外推误差和分布偏移等挑战。我们的方法在各种运动和导航任务中进行了评估,并证明了与最近提出的基于生成动作模型的算法相比在大部分数据集上的优越性。
Nov, 2022