Jan, 2022

带安全约束的保守分布式强化学习

TL;DR本文提出了一种名为约束保守分布最大后验策略优化(CDMPO)的离线强化学习算法用于安全探索中的约束决策问题,其中利用分布式强化学习方法准确估计 Q 函数和 C 函数,并利用保守的价值函数损失来减少违反约束的次数,同时使用加权平均比例积分微分(WAPID)来稳定更新拉格朗日乘子,在实验中表现出更好的风险控制能力。