BriefGPT.xyz
Ask
alpha
关键词
continuous control policies
搜索结果 - 2
通过协同行动表示实现生理敏捷性和灵活性的普适性推广
通过灵活运用 Synergistic Action Representation (SAR) 作为一种合适的控制机制,可以有效地学习高维度连续控制任务,提高样本效率,并在广泛的任务领域中实现零样本泛化。
PDF
a year ago
NIPS
通过随机值梯度学习连续控制策略
本文提出了一种使用反向传播学习连续控制策略的统一框架,并通过将贝尔曼方程中的随机性视为外源噪声的确定性函数,来支持随机控制。结果是一系列从有值函数的无模型方法到无值函数的有模型方法的通用策略梯度算法谱。我们使用学习模型,但只需要来自环境的观
→
PDF
9 years ago
Prev
Next