BriefGPT.xyz
Ask
alpha
关键词
uncertainty-based reward penalization
搜索结果 - 1
提高基于模型的离线强化学习的确定性不确定性传播
利用动量匹配离线模型优化的方法 (MOMBO),通过确定性传播不确定性,解决了模型基于离线强化学习中由于过度惩罚导致次优策略问题的挑战,并通过在各种环境中的实证研究证明 MOMBO 是更稳定和更高效的方法。
PDF
a month ago
Prev
Next