popo | BriefGPT - AI 论文速递

关键词popo

搜索结果 - 1

POPO: 悲观离线策略优化
本文主要针对离线强化学习中的价值函数方法，提出了一种名为 POPO 的悲观离线策略优化算法，它学习了一种悲观的价值函数以获取强策略，相比于多个最先进的算法，在高维状态和动作空间中表现出色。
PDF4 years ago