BriefGPT.xyz
Ask
alpha
关键词
raw pixel inputs
搜索结果 - 1
深度强化学习的连续控制
本论文将 Deep Q-Learning 算法应用于连续动作域,并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法,可在连续动作空间中进行操作,成功解决了 20 多个模拟物理任务,并能与完全访问动态并了解其导数的规划算法相竞争,
→
PDF
9 years ago
Prev
Next