BriefGPT.xyz
大模型
Ask
alpha
关键词
state-value function
搜索结果 - 4
Vlearn:基于高效状态 - 价值函数估计的离策学习
提出了一种名为 Vlearn 的新型离策略信任区域优化方法,通过只利用一个状态值函数作为评论家来克服现有方法的多个限制,在处理高维动作空间时解决了计算上的挑战。同时,通过消除对状态 - 动作 - 值函数的需求,Vlearn 简化了学习过程,
→
PDF
4 months ago
ICLR
利用残差方差在深度策略梯度中学习价值函数
提供了一种新的方法来训练演员 - 评论家框架中的评论家,使用新的状态 - 值函数逼近,并相对于平均值学习状态(响应地状态 - 动作对)的值,而非如传统的演员 - 评论家算法所学习的绝对值,这种方法证明了其在各种连续控制任务和算法中具有理论上
→
PDF
4 years ago
使用强化学习设计蜂窝网络连接的无人机路径
本文研究了无人机的路径设计问题,提出了一种新的基于强化学习的算法,通过学习相应的 MDP 的状态 - 价值函数来求解,并使用瓦片编码对大状态空间进行处理。该算法使用原始测量或仿真生成的信号强度作为输入,可适用于在线和离线实现,并成功地避免了
→
PDF
5 years ago
基于离线训练和函数近似的收敛演员 - 评论家算法
我们提出了第一种同时适用于状态值和策略函数逼近的政策梯度算法,保证在离线学习下收敛,解决了动作表示问题带来的高维 “诅咒” 问题,这些算法是基于基于平均状态值函数目标的渐变高演员 - 评论家和强调梯度的高演员 - 评论家推导而来,能够保持所
→
PDF
6 years ago
Prev
Next