BriefGPT.xyz
Ask
alpha
关键词
distribution approximation
搜索结果 - 1
AAAI
通过矩匹配实现分布式强化学习
本文提出了一种无限制统计学习方法,利用神经网络和最大均值偏差技术来匹配收益分布和 Bellman 目标,适用于分布式 RL 并在 Atari 游戏中获得了优异表现。
PDF
4 years ago
Prev
Next