Aug, 2024

SAMBO-RL:关注变化的基于模型的离线强化学习

TL;DR本研究解决了基于模型的离线强化学习中分布变化带来的挑战,提出了新的理论框架来分析模型偏差和策略变化的影响。通过引入关注变化的奖励(SAR),该方法优化了价值学习和策略训练,实验证明SAMBO-RL在多个基准测试中表现出色,表明其在实际应用中的有效性。