BriefGPT.xyz
Ask
alpha
关键词
value loss
搜索结果 - 1
连续控制中的状态抽象学习与迁移
使用简单的算法和良好的表示能否解决困难的强化学习问题?本文回答了这个问题,并提出了一种将连续状态空间抽象为离散的学习算法,将其转移到未知问题中以实现有效的学习,并证明学习到的抽象保持有界的值损失,实验证明该抽象使 tabular Q-Lea
→
PDF
4 years ago
Prev
Next