关键词actor-critic architecture
搜索结果 - 10
- ClothPPO:一个增强机器人布料操纵的近端策略优化框架,使用与观测对齐的动作空间PDF2 months ago
- CTD4 - 深度连续分布式算法与卡尔曼多评判员融合的演员 - 评论家代理PDF2 months ago
- 序列无关的多物体导航PDFa year ago
- 通过学习识别少而关键的状态进行一般政策评估和改进PDF2 years ago
- 零阶演员 - 评论家PDF2 years ago
- IJCAI利用剧集记忆解决连续控制问题PDF3 years ago
- IJCAI使用代理经验记忆的联邦加强蒸馏PDF5 years ago
- 基于离线训练和函数近似的收敛演员 - 评论家算法PDF6 years ago
- CVPR面向美学的图像剪裁增强学习(A2-RL)PDF7 years ago
- 使用双阶段训练的策略网络用于对话系统PDF8 years ago
Prev
Next