保守型离线分布式强化学习
该研究论文提出了一个用于高风险应用中学习风险规避策略的模型 - Offline Risk-Averse Actor-Critic (O-RAAC),展示了在不同机器人控制任务中,该算法比风险中性方法具有更高的条件值 - at-Risk (CVaR),并且在自然分布转移的情况下,O-RAAC 学习到具有良好平均表现的策略。
Feb, 2021
本论文提出了保守型 Q-learning(CQL),通过学习保守型 Q 函数以得到预期值,有效地解决了离线强化学习(offline RL)中的价值估计问题,从而提高了学习性能。在实验中,我们将 CQL 应用于复杂和多模态数据分布,证明其在离线 RL 方法中的优越性,能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略
Jun, 2020
提出了一种不确定性感知的离线强化学习方法,同时解决了认知不确定性和环境随机性,能够学习风险规避策略并表征折扣累积奖励的整个分布。通过在风险敏感和风险中立基准测试中进行全面实验评估,证明了其卓越的性能。
Mar, 2024
提出了一种保守但足够保证泛化性的离线学习算法 Mildly Conservative Q-learning (MCQ),其中通过分配适当的伪 Q 值来积极地训练 OOD 动作,在 D4RL 数据集上实验结果表明 MCQ 相对于之前的工作取得了显着的性能提升和优异的泛化能力。
Jun, 2022
离线强化学习中的分布变化问题通过 COmpositional COnservatism with Anchor-seeking (COCOA) 方法得以解决,该方法在复杂的输入空间中寻找共享分布点和差异,从而提高算法性能。
Apr, 2024
提出了一种名为 Strategically Conservative Q-Learning (SCQ) 的新框架,用于解决离线强化学习中的逼近误差和分布外动作的问题,在 D4RL 基准任务上表现优于现有方法。
Jun, 2024
分布偏移是离线强化学习中的一个主要障碍,为了避免高估罕见或未见动作,需要将学得的策略与行为策略的差异最小化。与以往保守的离线强化学习算法相比,我们提出使用从预训练的离线强化学习算法生成的数据集密度的梯度场来调整原始动作,解耦了保守性约束和策略,从而使广泛的离线强化学习算法受益。我们提出了基于 Conservative Denoising Score 的算法(CDSA),它利用去噪得分模型来建模数据集密度的梯度,而不是数据集密度本身,在确定性和连续的 MDP 环境中提供了更准确和高效的方法来调整预训练策略生成的动作。实验结果表明,我们的方法显著提高了 D4RL 数据集中基线算法的性能,并证明了我们模型在不同任务中基于不同预训练离线强化学习策略的泛化性和即插即用能力,同时验证了代理经过我们方法后表现出更高的风险规避能力,并展示了它在不同任务上的有效泛化能力。
Jun, 2024
离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决,本文提出了两种使用该框架的离线强化学习算法,并通过模拟实验展示了其优越性能。
Oct, 2023
本文提出了一种基于不确定性的离线强化学习方法,考虑 Q 值预测的置信度,不需要对数据分布进行估计或抽样,并提出了一种集合多样化的演员 - 批评家算法,该算法在大多数 D4RL 基准测试中实现了最先进的性能。
Oct, 2021
提出了一种新的基于模型的离线学习算法 MICRO,通过引入鲁棒的 Bellman 操作符在性能和稳健性之间进行权衡,可以显著降低计算成本并在离线学习基准测试中优于先前的 RL 算法,对敌对扰动也相当稳健。
Dec, 2023