BriefGPT.xyz
Ask
alpha
关键词
value propagation
搜索结果 - 3
去中心化网络化深度多智能体强化学习的价值传播
本研究提出了一种名为 value propagation 的基于 softmax 时间一致性和分布式优化的 MARL 算法,实现了非线性函数逼近、非 asymptotic 收敛率、离线策略转移和控制的收敛保证。
PDF
5 years ago
通过分集反向更新实现高样本效率的深度强化学习
本文提出了具有直接价值传播能力的一种新型深度强化学习算法 ——Episodic Backward Update (EBU)。与传统方法通过经验重放的方式使用均匀随机采样不同,我们的算法通过采样整个回合并将状态值连续传递到前一状态。我们的递归
→
PDF
6 years ago
ICLR
价值传播网络
本文介绍了 Value Propagation(VProp),它是一组基于可微分的价值迭代的参数高效的规划模块,通过强化学习可以成功地解决未知任务,具有在更大的地图尺寸上泛化的能力,并且可以学习在动态环境下导航。使用这些模块能够提供一种成本
→
PDF
6 years ago
Prev
Next