Sep, 2023

领域:温和保守的基于模型的离线强化学习

TL;DR这篇论文提出了一种不需要模型不确定性估计的温和保守型基于模型的离线强化学习算法 (DOMAIN),通过引入模型样本的自适应抽样分布来调整模型数据惩罚,理论上证明了该算法在区域外学习到的 Q 值是真实 Q 值的下界,与先前的基于模型的离线强化学习算法相比,DOMAIN 是较保守的,并且具有安全策略改进的保证。大量实验证明 DOMAIN 在 D4RL 数据集基准上优于先前的强化学习算法,并且在需要泛化的任务上比其他强化学习算法表现更好。