Jun, 2024

提高基于模型的离线强化学习的确定性不确定性传播

TL;DR利用动量匹配离线模型优化的方法 (MOMBO),通过确定性传播不确定性,解决了模型基于离线强化学习中由于过度惩罚导致次优策略问题的挑战,并通过在各种环境中的实证研究证明 MOMBO 是更稳定和更高效的方法。