Mar, 2024

Vlearn:基于高效状态 - 价值函数估计的离策学习

TL;DR提出了一种名为 Vlearn 的新型离策略信任区域优化方法,通过只利用一个状态值函数作为评论家来克服现有方法的多个限制,在处理高维动作空间时解决了计算上的挑战。同时,通过消除对状态 - 动作 - 值函数的需求,Vlearn 简化了学习过程,在复杂环境中实现了更高效的探索和利用。