BriefGPT.xyz
Ask
alpha
关键词
goal-conditioned reinforcement learning
搜索结果 - 22
ICLR
C-Learning: 通过递归分类实现目标的学习
探究了预测和控制自主智能体未来状态分布的问题,提出通过训练分类器间接地估计条件概率密度函数来解决,进而探究了基于 Q-learning 的目标条件强化学习方法的理论基础和假设,并且提出了可以预测新政策未来状态分布的算法。
PDF
4 years ago
通用价值密度估计 —— 对模仿学习和目标条件强化学习的应用
该研究考虑了两种不同的学习方式:模仿学习和目标条件强化学习。该研究介绍了一种基于概率长期动态和期望价值函数之间联系的方法,并利用密度估计的最新进展来有效学习达到指定状态的能力。该方法不仅在目标条件强化学习方面表现高效且不会出现事后偏差问题,
→
PDF
4 years ago
Prev
Next