BriefGPT.xyz
大模型
Ask
alpha
关键词
partially observed state
搜索结果 - 1
ICML
部分可观测深度强化学习的后悔最小化
本研究提出了一种新的基于反事实遗憾最小化的深度强化学习算法,能够有效处理部分观测状态,并在 Doom 和 Minecraft 中的学习第一人称的 3D 导航以及在 Doom 和 Pong 中进行部分观测对象的动作等强化学习任务中显著优于现有
→
PDF
7 years ago
Prev
Next