BriefGPT.xyz
Ask
alpha
关键词
episodic rewards
搜索结果 - 2
自监督简化深度强化学习
通过自监督回归学习策略网络,提出了一种基于监督损失函数训练深度强化学习智能体的算法 (SSRL),该算法无需策略梯度或价值估计,能够通过监督回归数据来稳定提高策略表现并在效率和性能方面与现有算法相媲美,展示了利用监督学习技术解决强化学习问题
→
PDF
3 years ago
ICLR
学习自我模仿多样化策略
本文提出了一种基于自我模仿学习的深度强化学习算法,旨在优化在稀疏和情景化奖励设置下的 RL 算法的效率,并使用 Stein 变分策略梯度下降来解决自我模仿学习的局限性,并在连续控制 MuJoCo 运动任务的一个具有挑战性的变体上展示了其有效
→
PDF
6 years ago
Prev
Next