BriefGPT.xyz
Ask
alpha
关键词
soft decomposed policy-critic
搜索结果 - 1
软分解策略评论者:弥合连续控制与离散 RL 的差距
这篇论文介绍了 SDPC 架构,它将软强化学习和演员 - 评论家技术与离散强化学习方法相结合,以克服连续控制问题的挑战,实现了在多个连续控制任务中优于当前最先进的方法的表现。
PDF
a year ago
Prev
Next