BriefGPT.xyz
Ask
alpha
关键词
off-policy actor-critic algorithms
搜索结果 - 1
深度强化学习中的悲观和乐观动态探索
通过利用悲观的状态 - 动作值函数更新,以及通过可解释参数独立控制悲观 / 乐观程度,Utility Soft Actor-Critic (USAC) 在离策略演员 - 评论家算法中实现了平衡,可以根据任务的性质,在恰当配置的悲观 / 乐观
→
PDF
a month ago
Prev
Next